亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        隨機(jī)森林和支持向量機(jī)算法在β-發(fā)夾模體預(yù)測(cè)中的比較

        2016-12-05 03:15:02賈少春
        關(guān)鍵詞:模體發(fā)夾組分

        賈少春

        (忻州師范學(xué)院數(shù)學(xué)系,山西忻州 034000)

        隨機(jī)森林和支持向量機(jī)算法在β-發(fā)夾模體預(yù)測(cè)中的比較

        賈少春

        (忻州師范學(xué)院數(shù)學(xué)系,山西忻州 034000)

        基于對(duì)β-發(fā)夾模體的預(yù)測(cè)探索,本文使用隨機(jī)森林和支持向量機(jī)兩種算法,對(duì)ArchDB40數(shù)據(jù)庫(kù)及自建數(shù)據(jù)集中的β-發(fā)夾模體進(jìn)行預(yù)測(cè).對(duì)于同一數(shù)據(jù)集,在特征參數(shù)和檢驗(yàn)方法均相同的情況下,隨機(jī)森林算法的預(yù)測(cè)精度要高于支持向量機(jī)算法.此外,由于隨機(jī)森林算法在參數(shù)維數(shù)較高的情況下不會(huì)發(fā)生過(guò)擬合現(xiàn)象,所以本文采用了將高維特征參數(shù)輸入隨機(jī)森林算法的方法來(lái)預(yù)測(cè)β-發(fā)夾,得到了較好的預(yù)測(cè)效果:對(duì)ArchDB40數(shù)據(jù)庫(kù)中的β-發(fā)夾進(jìn)行預(yù)測(cè),其5-交叉檢驗(yàn)的預(yù)測(cè)精度和相關(guān)系數(shù)分別是83.3%和0.59;對(duì)自建數(shù)據(jù)集中的β-發(fā)夾進(jìn)行預(yù)測(cè),其5-交叉檢驗(yàn)的預(yù)測(cè)精度和相關(guān)系數(shù)分別是85.2%和0.62.

        隨機(jī)森林算法;支持向量機(jī)算法;β-發(fā)夾模體;離散增量;預(yù)測(cè)的二級(jí)結(jié)構(gòu)信息

        β-發(fā)夾是一種特殊的超二級(jí)結(jié)構(gòu)模體.對(duì)于β-β超二級(jí)結(jié)構(gòu),如果兩個(gè)反平行的β-strand被連接多肽(loop)連接,而且兩個(gè)strand之間存在一個(gè)或多個(gè)氫鍵,則稱這種超二級(jí)結(jié)構(gòu)為β-發(fā)夾,否則稱為非β-發(fā)夾[1-3].前人在β-發(fā)夾模體識(shí)別的研究過(guò)程中,使用不同的算法對(duì)不同數(shù)據(jù)庫(kù)中的研究對(duì)象進(jìn)行了預(yù)測(cè),已經(jīng)取得了一系列較好的研究成果.2002年,Cruz等[4]使用人工神經(jīng)網(wǎng)絡(luò)(ANN),對(duì)序列相似性小于35%的534個(gè)蛋白質(zhì)中的β-發(fā)夾進(jìn)行識(shí)別,5-fold交叉檢驗(yàn)的預(yù)測(cè)精度是47.7%.2004年Kuhn[1]等使用ANN方法預(yù)測(cè)局域發(fā)夾和非局域diverging turn,對(duì)2 209個(gè)蛋白質(zhì)中的β-發(fā)夾預(yù)測(cè)精度是75.9%.2005年,Kumar等[5]使用兩種機(jī)器記憶技術(shù)——支持向量機(jī)和ANN模型,對(duì)EVA的序列相似性小于33%的2 880個(gè)非冗余蛋白質(zhì)中β-發(fā)夾進(jìn)行識(shí)別,5-fold交叉檢驗(yàn)的預(yù)測(cè)精度為79.2%.2007年,胡秀珍等[6]使用支持向量機(jī),對(duì)ArchDB40和EVA數(shù)據(jù)庫(kù)中的β-發(fā)夾模體進(jìn)行識(shí)別,5-fold交叉檢驗(yàn)預(yù)測(cè)精度分別是79.9%和83.3%.2008年,胡秀珍等[7]使用二次判別方法,對(duì)ArchDB40和EVA數(shù)據(jù)庫(kù)中β-發(fā)夾進(jìn)行識(shí)別,5-fold交叉檢驗(yàn)的預(yù)測(cè)精度分別達(dá)到了83.1%和80.7%.本文是對(duì)該研究的進(jìn)一步探索,具體采用的是隨機(jī)森林和支持向量機(jī)兩種分類算法,選用的數(shù)據(jù)集一個(gè)是前人使用過(guò)的ArchDB40數(shù)據(jù)集,一個(gè)是新整理的包含4 070個(gè)非冗余蛋白質(zhì)鏈的數(shù)據(jù)集,對(duì)這兩個(gè)數(shù)據(jù)集中的β-發(fā)夾進(jìn)行預(yù)測(cè),隨機(jī)森林算法的效果均好于支持向量機(jī)算法的.

        1 數(shù)據(jù)及方法

        1.1 數(shù)據(jù)集

        1.1.1 ArchDB40數(shù)據(jù)集

        ArchDB40數(shù)據(jù)庫(kù)[8-9]是本文選用的第一個(gè)數(shù)據(jù)集.具體的研究對(duì)象是loop長(zhǎng)為2-8個(gè)氨基酸殘基的模體.固定序列模式長(zhǎng)選為12,截取規(guī)則有5位點(diǎn)法、8位點(diǎn)法和中心位點(diǎn)法[6],分別用5-12、8-12 和Lr-12來(lái)表示,具體示例見(jiàn)圖1.

        圖1 固定模式的三種截取方式

        1.1.2 自建數(shù)據(jù)集

        本文選用的第二個(gè)數(shù)據(jù)集是筆者自己構(gòu)建的數(shù)據(jù)庫(kù),即一個(gè)序列相似性小于25%、分辨率高于3?的包含4 070條蛋白質(zhì)鏈的數(shù)據(jù)庫(kù).下面是整理數(shù)據(jù)庫(kù)的具體過(guò)程:

        第一步:從SCOP數(shù)據(jù)庫(kù)的ASTRAL(1.75版)中下載序列相似性低于95%的序列;

        第二步:使用Blast軟件獲得序列相似性低于25%的序列4 174條(僅包含全β、α / β和α + β類的蛋白質(zhì)序列),并從中篩選出分辨率高于3?的序列4 070條;

        第三步:使用DSSP[10]找出ECE模式16 917個(gè);

        第四步:使用PROMOTIF軟件[11]得到9 046個(gè)β-發(fā)夾模體,與ECE模式匹配的筆者認(rèn)為是β-發(fā)夾,共8 800個(gè),剩余的8 117個(gè)為非β-發(fā)夾模體;

        第五步:對(duì)得到的模體進(jìn)行統(tǒng)計(jì)分析,發(fā)現(xiàn)loop長(zhǎng)為2 - 10個(gè)氨基酸殘基的β-發(fā)夾模體和非β-發(fā)夾模體分別有8 291和6 865個(gè),各占了此類模體總數(shù)的94%和85%,故選取loop長(zhǎng)為2 -10個(gè)氨基酸殘基的模體作為具體研究對(duì)象;

        第六步:計(jì)算上述數(shù)據(jù)集中β-發(fā)夾模體和非β-發(fā)夾模體的平均長(zhǎng)度,分別是16.58和15.65,故選取固定序列模式長(zhǎng)為17,截取規(guī)則為中心位點(diǎn)法.

        1.2 特征參數(shù)

        1.2.1 位點(diǎn)分析

        使用weblogo網(wǎng)頁(yè)(http://weblogo.berkeley.edu/logo.cgi)對(duì)ArchDB40數(shù)據(jù)集中β-發(fā)夾和非β-發(fā)夾模體的固定序列片段(12個(gè)位點(diǎn))分別進(jìn)行統(tǒng)計(jì)分析,結(jié)果見(jiàn)圖2.

        圖2 β-發(fā)夾和非β-發(fā)夾固定序列片段的位點(diǎn)氨基酸保守信息 (ArchDB40數(shù)據(jù)集)

        再用weblogo網(wǎng)頁(yè)(http://weblogo.berkeley.edu/logo.cgi)對(duì)自建數(shù)據(jù)集中β-發(fā)夾和非β-發(fā)夾模體的固定序列片段(17個(gè)位點(diǎn))分別進(jìn)行統(tǒng)計(jì)分析,結(jié)果見(jiàn)圖3.

        圖3 β-發(fā)夾和非β-發(fā)夾固定序列片段的位點(diǎn)氨基酸保守信息 (自建數(shù)據(jù)集)

        1.2.2 參數(shù)選取

        通過(guò)位點(diǎn)分析發(fā)現(xiàn),ArchDB40數(shù)據(jù)庫(kù)和自建數(shù)據(jù)集中的固定序列片段的位點(diǎn)保守性都較強(qiáng),故提取了以下幾項(xiàng)作為特征參數(shù).

        1)位點(diǎn)氨基酸組分A 對(duì)ArchDB40數(shù)據(jù)集而言,由于固定序列模式長(zhǎng)是12且采用了三種固定序列片段截取方式,所以每個(gè)固定序列片段的位點(diǎn)氨基酸組分[12-13]是一個(gè)756維(21 × 12 × 3,這里21表示20種氨基酸和1個(gè)空位)的向量;對(duì)自建數(shù)據(jù)集而言,由于固定序列模式長(zhǎng)是17且僅采用了中心位點(diǎn)法一種截取方式,所以每個(gè)固定序列片段的位點(diǎn)氨基酸組分是一個(gè)357維(21 × 17)的向量.

        2)位點(diǎn)親疏水組分Q 同理,對(duì)ArchDB40數(shù)據(jù)集而言,其位點(diǎn)親疏水組分[14]是一個(gè)252維(7 × 12 × 3,這里7表示6種親疏水特性和1個(gè)空位)的向量;對(duì)自建數(shù)據(jù)集而言,位點(diǎn)親疏水組分是一個(gè)119維(7 × 17)的向量.

        3)基于位點(diǎn)氨基酸組分的離散增量值ID(A) 以位點(diǎn)氨基酸組分作為ID的輸入?yún)?shù),用訓(xùn)練集中的β-發(fā)夾序列片段和非β-發(fā)夾序列片段作標(biāo)準(zhǔn)離散源,進(jìn)而計(jì)算出檢驗(yàn)集中每條序列的2個(gè)離散增量值[15-18].對(duì)ArchDB40數(shù)據(jù)集而言,由于采用了三種截取方式,所以每條被檢片段可得6個(gè)離散增量值ID(A);對(duì)自建數(shù)據(jù)集而言,由于只有一種截取方式,所以每條被檢片段可得2個(gè)離散增量值ID(A).

        4)基于位點(diǎn)親疏水組分的離散增量值ID(Q) 類似地,以位點(diǎn)親疏水組分作為ID的輸入?yún)?shù),對(duì)ArchDB40數(shù)據(jù)集而言,每條被檢片段可計(jì)算得6個(gè)離散增量值ID(Q);對(duì)自建數(shù)據(jù)集而言,每條被檢片段可計(jì)算得2個(gè)離散增量值ID(Q).

        5)基于位點(diǎn)氨基酸組分的打分函數(shù)值S(A) 以位點(diǎn)氨基酸組分作為打分函數(shù)S的輸入?yún)?shù),利用訓(xùn)練集中的β-發(fā)夾和非β-發(fā)夾構(gòu)造標(biāo)準(zhǔn)打分矩陣,進(jìn)而計(jì)算出檢驗(yàn)集中每條序列的2個(gè)打分值[19-22].對(duì)ArchDB40數(shù)據(jù)集而言,由于采用了三種截取方式,所以每條被檢片段可得6個(gè)打分值S12(A);對(duì)自建數(shù)據(jù)集而言,因只有一種截取方式,所以每條被檢片段可得2個(gè)打分值S17(A).

        6)預(yù)測(cè)的二級(jí)結(jié)構(gòu)信息PSS 預(yù)測(cè)的二級(jí)結(jié)構(gòu)信息由PSIPRED[5]得到,并用一個(gè)3維的向量來(lái)表示,其中的3個(gè)分量分別表示對(duì)β-發(fā)夾和非β-發(fā)夾模體序列片段進(jìn)行預(yù)測(cè)得到的α螺旋、β折疊和無(wú)規(guī)卷曲coil的頻數(shù).

        1.3 算法簡(jiǎn)介

        1.3.1 隨機(jī)森林算法(RF)

        隨機(jī)森林是Leo Breiman于2001年提出的一種新型機(jī)器學(xué)習(xí)算法[23-27],其思想是將眾多弱分類器集成為一個(gè)強(qiáng)分類器進(jìn)行分類.隨機(jī)森林由很多互不關(guān)聯(lián)的決策樹(shù)組成,輸入樣本時(shí)森林中的每一棵決策樹(shù)各自進(jìn)行判斷,最終的決策結(jié)果則由綜合全部決策樹(shù)的分類結(jié)果而定.本文的隨機(jī)森林算法是通過(guò)R軟件[28-30]來(lái)實(shí)現(xiàn)的,使用的是R2.8.1版本(http://www.r-project.org/).

        1.3.2 支持向量機(jī)算法(SVM)

        支持向量機(jī)(SVM)算法是由Vapnik[31]等提出來(lái)的一種新型的機(jī)器學(xué)習(xí)方法,其基本思想是通過(guò)非線性變換把輸入向量映射到一個(gè)高維特征空間,再在高維特征空間構(gòu)造線性判別函數(shù),進(jìn)而尋找最優(yōu)超平面,使其與各類樣本之間的距離達(dá)到最大.

        本文支持向量機(jī)(SVM)算法是通過(guò)調(diào)用libsvm-2.89程序包[32]來(lái)實(shí)現(xiàn)的(http://www.csie. ntu.edu.tw/~cjlin/libsvm).

        1.4 檢驗(yàn)方法和評(píng)價(jià)指標(biāo)

        1.4.1 檢驗(yàn)方法

        做模體預(yù)測(cè)常用的檢驗(yàn)方法有自洽檢驗(yàn)、獨(dú)立檢驗(yàn)、k-fold交叉檢驗(yàn)和Jack-knife檢驗(yàn).本文采用的是5-fold交叉檢驗(yàn)[6-7],即將數(shù)據(jù)集平均分成5份,其中4份作為訓(xùn)練集,剩余的1份作為檢驗(yàn)集,重復(fù)做5次獨(dú)立檢驗(yàn)后求其平均的檢驗(yàn)方法.

        1.4.2 評(píng)價(jià)指標(biāo)

        本文使用的評(píng)價(jià)指標(biāo)[6-7]有:Qo(H)、Qo(NH)、Qp(H)、Qp(NH)、Acc和MCC,具體計(jì)算公式如下:

        其中,p為β-發(fā)夾被正確識(shí)別的數(shù)量,r為非β-發(fā)夾被正確識(shí)別的數(shù)量,u為β-發(fā)夾被預(yù)測(cè)為非β-發(fā)夾的數(shù)量,o為非β-發(fā)夾被預(yù)測(cè)為β-發(fā)夾的數(shù)量.

        2 結(jié)果與分析

        2.1 對(duì)ArchDB40數(shù)據(jù)集的預(yù)測(cè)結(jié)果

        對(duì)ArchDB40數(shù)據(jù)庫(kù)中的β-發(fā)夾模體,用基于位點(diǎn)氨基酸組分得到的6個(gè)離散增量值ID(A)、基于位點(diǎn)親疏水組分得到的6個(gè)離散增量值ID(Q)、基于位點(diǎn)氨基酸組分得到的6個(gè)打分函數(shù)值S12(A)和3維預(yù)測(cè)的二級(jí)結(jié)構(gòu)信息PSS的組合向量作為特征參數(shù)(ID(A) + ID(Q) + S12(A) + PSS),采用支持向量機(jī)(SVM)算法進(jìn)行預(yù)測(cè),其5-fold交叉檢驗(yàn)的Acc和MCC的值分別為79.4%和0.49.采用隨機(jī)森林(RF)算法對(duì)該數(shù)據(jù)庫(kù)中的β-發(fā)夾模體進(jìn)行預(yù)測(cè),實(shí)施5-fold交叉檢驗(yàn),Acc和MCC的值均得到了提高,分別達(dá)到82.0%和0.55,具體結(jié)果見(jiàn)表1.

        2.2 對(duì)自建數(shù)據(jù)集的預(yù)測(cè)結(jié)果

        對(duì)于自建數(shù)據(jù)集中的β-發(fā)夾模體,我們也提取了ID(A) + ID(Q) + S17(A) + PSS作為特征參數(shù)進(jìn)行預(yù)測(cè),其支持向量機(jī)(SVM)算法結(jié)合5-fold交叉檢驗(yàn)的結(jié)果是:Acc和MCC的值分別為80.2%和0.51.采用隨機(jī)森林(RF)算法對(duì)該數(shù)據(jù)庫(kù)中的β-發(fā)夾模體進(jìn)行預(yù)測(cè),實(shí)施5-fold交叉檢驗(yàn),其結(jié)果也有所提高,Acc和MCC的值分別達(dá)到83.5%和0.59,具體結(jié)果見(jiàn)表2.

        表1 對(duì)ArchDB40數(shù)據(jù)庫(kù)中β-發(fā)夾預(yù)測(cè)的結(jié)果比較

        表2 對(duì)自建數(shù)據(jù)庫(kù)中β-發(fā)夾預(yù)測(cè)結(jié)果的比較

        2.3 基于高維特征參數(shù)的隨機(jī)森林算法的預(yù)測(cè)結(jié)果

        考慮到隨機(jī)森林算法所具有的特殊性能,我們也直接使用位點(diǎn)氨基酸組分(A)、位點(diǎn)親疏水組分(Q)和預(yù)測(cè)的二級(jí)結(jié)構(gòu)(PSS)的組合向量(A + Q + PSS)作為輸入?yún)?shù)進(jìn)行識(shí)別.需要指出的是對(duì)ArchDB40數(shù)據(jù)庫(kù)中的β-發(fā)夾來(lái)說(shuō),這里的位點(diǎn)氨基酸組分(A)和位點(diǎn)親疏水組分(Q)僅建立在前兩種截取方式(5-12和8-12)之上,故A + Q + PSS參數(shù)共675(21 × 12 × 2 + 7 × 12 × 2 + 3)維,將其輸入RF算法做5-fold交叉檢驗(yàn),其Acc和MCC的值分別是83.3%和0.59.對(duì)自建數(shù)據(jù)集中的β-發(fā)夾來(lái)說(shuō),由于每個(gè)片段只有一種截取方式,故A + Q + PSS參數(shù)共479維(21 × 17 + 7 × 17 + 3),將其輸入RF算法做5-交叉檢驗(yàn),其預(yù)測(cè)精度和相關(guān)系數(shù)分別是85.2%和0.62,詳細(xì)結(jié)果見(jiàn)表3.

        3 結(jié) 論

        本文對(duì)β-發(fā)夾模體的預(yù)測(cè)探索有以下幾點(diǎn)創(chuàng)新:1)整理了一個(gè)新的β-發(fā)夾數(shù)據(jù)集,這不僅豐富了β-發(fā)夾的模體數(shù),而且使得β-發(fā)夾模體包含的信息更加全面;2)對(duì)比了隨機(jī)森林(RF)和支持向量機(jī)(SVM)兩種算法的分類效果,結(jié)果顯示RF算法要好于SVM算法;3)選取了高維特征參數(shù)(A + Q + PSS)輸入RF算法進(jìn)行預(yù)測(cè),其結(jié)果得到進(jìn)一步改善.

        [1] Kuhn M, Meiler J, Baker D. Strand-loop-strand motifs: Prediction of hairpins and diverging turns in proteins [J]. Proteins: Structure, Function, and Bioinformatics, 2004, 54(2): 282-288.

        [2] Wintjens R T, Rooman M J, Wodak S J. Automatic classification and analysis of alpha-alpha-turn motifs in proteins[J]. Journal of Molecular Biology, 1996, 255(1): 235-253.

        [3] Jones D T. Protein secondary structure prediction based on position-specific scoring matrices [J]. Journal of Molecular Biology, 1999, 292(2): 195-202.

        [4] Cruz X, Hutchinson E G, Shepherd A. Toward predicting protein topology: an approach to identifying β hairpins [J]. Proceedings of the National Academy Sciences of the USA, 2002, 99(17): 11157-11162.

        [5] Kumar M, Bhasin M, Natt N K, et al. BhairPred: prediction of β-hairpins in a protein from multiple alignment information using ANN and SVM techniques [J]. Nucleic Acids Research, 2005, 33: 154-159.

        [6] Hu X Z, Li Q Z. Prediction of the β-hairpins in proteins using support vector machine [J].Protein Journal, 2008, 27(2):115-122.

        [7] Hu X Z, Li Q Z, Wang C L. Recognition of β-hairpin motifs in proteins by using the composite vector [J]. Amino Acids, 2010, 38(3): 915-921.

        [8] Oliva A, Bates P A, Querol E, et al. An automated classification of the structure of protein loops [J]. Journal of Molecular Biology, 1997, 266(4): 814-830.

        [9] Espadaler J, Fuentes N F, Hermoso A, et al. ArchDB: automated protein loop classification as a tool for structural genomics [J]. Nucleic Acids Research, 2004(32): 185-188.

        [10] Kabsch W, Sander C. Dictionary of protein secondary structure: Pattern recognition of hydrogen-bonded and geometrical features [J]. Biopolymers, 1983, 22(12): 2577-2637.

        [11] Hutchinson E G, Thornton J M. PROMOTIF-A program to identify and analyze structural motifs in proteins [J]. Protein Science, 1996, 5(2): 212-220.

        [12] Panek J, Eidhammer I, Aasland R. A new method for identification of protein (sub) families in a set of proteins based on hydropathy distribution in proteins [J]. Proteins: Structure, Function, Bioinformatics, 2005, 58(4): 923-934.

        [13] 高蘇娟, 胡秀珍. 蛋白質(zhì)中四類簡(jiǎn)單超二級(jí)結(jié)構(gòu)的分類[J]. 內(nèi)蒙古工業(yè)大學(xué)學(xué)報(bào), 2013, 32(1): 21-26.

        [14] 賈少春, 胡秀珍. 基于添加功能位點(diǎn)信息的組合向量預(yù)測(cè)β-發(fā)夾模體[J]. 內(nèi)蒙古工業(yè)大學(xué)學(xué)報(bào), 2012, 31(3):1-9.

        [15] Laxton R R. The measure of diversity [J]. Journal of Theoretical Biology, 1978, 71(1): 51-67.

        [16] Zhang L R, Luo L F. Splice site prediction with quadratic discriminate analysis using diversity measure [J]. Nucleic Acids Research, 2003, 31(21): 6214-6220.

        [17] Chen Y L, Li Q Z. Prediction of the subcellular location of apoptosis proteins [J]. Journal of Theoretical Biology,2007, 245(4): 775-783.

        [18] 宋航宇, 胡秀珍, 馮振興, 等. 基于統(tǒng)計(jì)特征的酶蛋白質(zhì)中特殊模體βαβ的預(yù)測(cè)[J]. 生物物理學(xué)報(bào), 2013,29(9): 658-668.

        [19] Kel A E, Gobling E, Reuter I, et al. MATCHTM: a tool for searching transcription factor binding sites in DNA sequences [J]. Nucleic Acids Research, 2003, 31(13): 3576-3579.

        [20] 楊科利, 李前忠, 林昊. 預(yù)測(cè)酵母(Yeast)基因轉(zhuǎn)錄因子結(jié)合位點(diǎn)[J]. 內(nèi)蒙古大學(xué)學(xué)報(bào)(自然科學(xué)版), 2006,37(5): 524-530.

        [21] Cartharius K, Frech K, Grote K, et al. MatInspector and beyond: promoter analysis based on transcription factor binding sites [J]. Bioinformatics, 2005, 21(13): 2933-2942.

        [22] 宋航宇, 胡秀珍. 基于矩陣打分值和化學(xué)位移值預(yù)測(cè)酶蛋白質(zhì)中β-發(fā)夾模體[J]. 內(nèi)蒙古工業(yè)大學(xué)學(xué)報(bào), 2014,33(3): 175-180.

        [23] Breiman L. Random forests [J]. Machine Learning, 2001, 45(1): 5-32.

        [24] Okun O, Priisalu H. Random forest for gene expression based cancer classification: Overlooked issues [J]. PatternRecognition and Image Analysis, 2007, 4478(partⅡ): 483-490.

        [25] 袁敏, 胡秀珍. 隨機(jī)森林方法預(yù)測(cè)膜蛋白類型[J]. 生物物理學(xué)報(bào), 2009, 25(5): 349-355.

        [26] 王麗愛(ài), 馬昌, 周旭東, 等. 基于隨機(jī)森林回歸算法的小麥葉片SPAD值遙感估算[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2015,46(1): 259-265.

        [27] 林劼, 林舒曄. 基于隨機(jī)森林算法的葡萄酒品質(zhì)預(yù)測(cè)方法[J]. 莆田學(xué)院學(xué)報(bào), 2012, 19(5): 88-92.

        [28] Liaw A, Wiener M. Classification and regression by random forest [J]. R News, 2002, 2(3): 18-22.

        [29] 張超, 孫鳳, 曾憲濤. R軟件調(diào)用JAGS軟件實(shí)現(xiàn)網(wǎng)狀Meta分析[J]. 中國(guó)循證醫(yī)學(xué)雜志, 2014, 14(2): 241-248.

        [30] 張超, 耿培亮, 郭毅, 等. 應(yīng)用R語(yǔ)言netmeta程序包實(shí)現(xiàn)網(wǎng)狀Meta分析[J]. 中國(guó)循證醫(yī)學(xué)雜志, 2014, 14(5):625-630.

        [31] Vapnik V. An overview of statistical learning theory [J]. IEEE Transactions on Neural Networks, 1999, 10(5):988-999.

        [32] Chang C C, Lin C J. LIBSVM: a library for support vector machines [J]. ACM Transactions on Intelligent Systems and Technology, 2011, 2(3): 389-396.

        Comparison between Random Forest and Support Vector Machine Algorithm for Prediction of β-hairpin Motif

        JIA Shaochun
        (Department of Mathematics, Xinzhou Teachers College, Xinzhou, China 034000)

        Based on the prediction exploration of β-hairpin motifs in proteins, the random forest and support vector machine algorithm is applied in this paper to predict β-hairpin motifs in ArchDB40 (Specific database name) and the self-built dataset. For the same dataset, when using the same characteristic parameters and the same test method, Random Forest algorithm is more accurate than Support Vector Machine. In addition,Random Forest algorithm never results in the overfitting phenomenon under the higher dimension of characteristic parameters, so the Random Forest based on higher dimension characteristic parameters is applied to predict β-hairpin motifs. The better prediction results are obtained: 1. Prediction of β-hairpin motifs in ArchDB40 dataset, the overall accuracy and Matthew’s correlation coefficient of 5-fold cross-validation achieve 83.3% and 0.59 respectively; 2. Prediction of β-hairpin motifs in the self-built dataset, the overall accuracy and Matthew’s correlation coefficient of 5-fold cross-validation achieve 85.2% and 0.62,respectively.

        Random Forest Algorithm; Support Vector Machine(SVM) Algorithm; β-hairpin Motif;Increment of Diversity; Predicted Secondary Structure Information

        TP181

        A

        1674-3563(2016)03-0026-08

        10.3875/j.issn.1674-3563.2016.03.005 本文的PDF文件可以從xuebao.wzu.edu.cn獲得

        (編輯:王一芳)

        2016-03-15

        賈少春(1984- ),女,山西原平人,助教,碩士,研究方向:算法和模體預(yù)測(cè)

        猜你喜歡
        模體發(fā)夾組分
        組分分發(fā)管理系統(tǒng)在天然氣計(jì)量的應(yīng)用
        基于Matrix Profile的時(shí)間序列變長(zhǎng)模體挖掘
        一種難溶難熔未知組分板材的定性分析
        少了一個(gè)發(fā)夾
        婦女之友(2019年3期)2019-04-28 01:35:32
        植入(l, d)模體發(fā)現(xiàn)若干算法的實(shí)現(xiàn)與比較
        黑順片不同組分對(duì)正常小鼠的急性毒性
        中成藥(2018年8期)2018-08-29 01:28:26
        格格旗頭小發(fā)夾
        童話世界(2018年14期)2018-05-29 00:48:04
        金雀花中黃酮苷類組分鑒定及2種成分測(cè)定
        中成藥(2018年2期)2018-05-09 07:20:09
        基于網(wǎng)絡(luò)模體特征攻擊的網(wǎng)絡(luò)抗毀性研究
        基于模體演化的時(shí)序鏈路預(yù)測(cè)方法
        国产婷婷色综合av蜜臀av| 国产自拍伦理在线观看| 操国产丝袜露脸在线播放| 中文字幕一区二区三区人妻精品| 二区三区视频在线观看| 国产免费人成视频网站在线18| 久久精品国产精品青草| 成人性生交大片免费看r| 午夜无码大尺度福利视频| 777久久| 青青草视频在线播放观看| 成人av蜜桃在线观看| 色综合av综合无码综合网站| 一本一本久久a久久精品综合麻豆| 人妻av一区二区三区av免费| 中文字幕人妻激情在线视频| 亚洲国产亚综合在线区| 开心五月激情综合婷婷| 大地资源网最新在线播放 | 久久天天躁狠狠躁夜夜2020!| 国产亚洲三级在线视频| 中国少妇久久一区二区三区| 国产精品亚洲av无人区一区香蕉| 狼人香蕉香蕉在线28 - 百度| 亚洲一区爱区精品无码| 天堂在线观看av一区二区三区| 日本熟妇免费一区二区三区| 亚洲日韩成人无码| 在线亚洲欧美日韩精品专区| 亚洲女同精品一区二区久久| 免费高清视频在线观看视频| 一区二区三区免费观看日本| 人妻精品久久无码区| 九九精品视频在线观看| 久久精品国产一区二区涩涩| 国产av精品一区二区三区久久| 免费a级毛片18禁网站免费| 97夜夜澡人人爽人人喊中国片| 精品国产福利片在线观看| 亚洲精品一区二在线观看| 亚洲国产一二三精品无码|