亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

隨機(jī)森林和支持向量機(jī)算法在β-發(fā)夾模體預(yù)測中的比較

2016-12-05 03:15:02賈少春

溫州大學(xué)學(xué)報(bào)(自然科學(xué)版) 2016年3期

關(guān)鍵詞：模體發(fā)夾組分

賈少春

（忻州師范學(xué)院數(shù)學(xué)系，山西忻州 034000）

隨機(jī)森林和支持向量機(jī)算法在β-發(fā)夾模體預(yù)測中的比較

賈少春

（忻州師范學(xué)院數(shù)學(xué)系，山西忻州 034000）

基于對β-發(fā)夾模體的預(yù)測探索，本文使用隨機(jī)森林和支持向量機(jī)兩種算法，對ArchDB40數(shù)據(jù)庫及自建數(shù)據(jù)集中的β-發(fā)夾模體進(jìn)行預(yù)測.對于同一數(shù)據(jù)集，在特征參數(shù)和檢驗(yàn)方法均相同的情況下，隨機(jī)森林算法的預(yù)測精度要高于支持向量機(jī)算法.此外，由于隨機(jī)森林算法在參數(shù)維數(shù)較高的情況下不會發(fā)生過擬合現(xiàn)象，所以本文采用了將高維特征參數(shù)輸入隨機(jī)森林算法的方法來預(yù)測β-發(fā)夾，得到了較好的預(yù)測效果：對ArchDB40數(shù)據(jù)庫中的β-發(fā)夾進(jìn)行預(yù)測，其5-交叉檢驗(yàn)的預(yù)測精度和相關(guān)系數(shù)分別是83.3％和0.59；對自建數(shù)據(jù)集中的β-發(fā)夾進(jìn)行預(yù)測，其5-交叉檢驗(yàn)的預(yù)測精度和相關(guān)系數(shù)分別是85.2％和0.62.

隨機(jī)森林算法；支持向量機(jī)算法；β-發(fā)夾模體；離散增量；預(yù)測的二級結(jié)構(gòu)信息

β-發(fā)夾是一種特殊的超二級結(jié)構(gòu)模體.對于β-β超二級結(jié)構(gòu)，如果兩個(gè)反平行的β-strand被連接多肽（loop）連接，而且兩個(gè)strand之間存在一個(gè)或多個(gè)氫鍵，則稱這種超二級結(jié)構(gòu)為β-發(fā)夾，否則稱為非β-發(fā)夾［1-3］.前人在β-發(fā)夾模體識別的研究過程中，使用不同的算法對不同數(shù)據(jù)庫中的研究對象進(jìn)行了預(yù)測，已經(jīng)取得了一系列較好的研究成果.2002年，Cruz等［4］使用人工神經(jīng)網(wǎng)絡(luò)（ANN），對序列相似性小于35％的534個(gè)蛋白質(zhì)中的β-發(fā)夾進(jìn)行識別，5-fold交叉檢驗(yàn)的預(yù)測精度是47.7％.2004年Kuhn［1］等使用ANN方法預(yù)測局域發(fā)夾和非局域diverging turn，對2 209個(gè)蛋白質(zhì)中的β-發(fā)夾預(yù)測精度是75.9％.2005年，Kumar等［5］使用兩種機(jī)器記憶技術(shù)——支持向量機(jī)和ANN模型，對EVA的序列相似性小于33％的2 880個(gè)非冗余蛋白質(zhì)中β-發(fā)夾進(jìn)行識別，5-fold交叉檢驗(yàn)的預(yù)測精度為79.2％.2007年，胡秀珍等［6］使用支持向量機(jī)，對ArchDB40和EVA數(shù)據(jù)庫中的β-發(fā)夾模體進(jìn)行識別，5-fold交叉檢驗(yàn)預(yù)測精度分別是79.9％和83.3％.2008年，胡秀珍等［7］使用二次判別方法，對ArchDB40和EVA數(shù)據(jù)庫中β-發(fā)夾進(jìn)行識別，5-fold交叉檢驗(yàn)的預(yù)測精度分別達(dá)到了83.1％和80.7％.本文是對該研究的進(jìn)一步探索，具體采用的是隨機(jī)森林和支持向量機(jī)兩種分類算法，選用的數(shù)據(jù)集一個(gè)是前人使用過的ArchDB40數(shù)據(jù)集，一個(gè)是新整理的包含4 070個(gè)非冗余蛋白質(zhì)鏈的數(shù)據(jù)集，對這兩個(gè)數(shù)據(jù)集中的β-發(fā)夾進(jìn)行預(yù)測，隨機(jī)森林算法的效果均好于支持向量機(jī)算法的.

1 數(shù)據(jù)及方法

1.1 數(shù)據(jù)集

1.1.1 ArchDB40數(shù)據(jù)集

ArchDB40數(shù)據(jù)庫［8-9］是本文選用的第一個(gè)數(shù)據(jù)集.具體的研究對象是loop長為2-8個(gè)氨基酸殘基的模體.固定序列模式長選為12，截取規(guī)則有5位點(diǎn)法、8位點(diǎn)法和中心位點(diǎn)法［6］，分別用5-12、8-12 和Lr-12來表示，具體示例見圖1.

圖1 固定模式的三種截取方式

1.1.2 自建數(shù)據(jù)集

本文選用的第二個(gè)數(shù)據(jù)集是筆者自己構(gòu)建的數(shù)據(jù)庫，即一個(gè)序列相似性小于25％、分辨率高于3?的包含4 070條蛋白質(zhì)鏈的數(shù)據(jù)庫.下面是整理數(shù)據(jù)庫的具體過程：

第一步：從SCOP數(shù)據(jù)庫的ASTRAL（1.75版）中下載序列相似性低于95％的序列；

第二步：使用Blast軟件獲得序列相似性低于25％的序列4 174條（僅包含全β、α / β和α + β類的蛋白質(zhì)序列），并從中篩選出分辨率高于3?的序列4 070條；

第三步：使用DSSP［10］找出ECE模式16 917個(gè)；

第四步：使用PROMOTIF軟件［11］得到9 046個(gè)β-發(fā)夾模體，與ECE模式匹配的筆者認(rèn)為是β-發(fā)夾，共8 800個(gè)，剩余的8 117個(gè)為非β-發(fā)夾模體；

第五步：對得到的模體進(jìn)行統(tǒng)計(jì)分析，發(fā)現(xiàn)loop長為2 - 10個(gè)氨基酸殘基的β-發(fā)夾模體和非β-發(fā)夾模體分別有8 291和6 865個(gè)，各占了此類模體總數(shù)的94％和85％，故選取loop長為2 -10個(gè)氨基酸殘基的模體作為具體研究對象；

第六步：計(jì)算上述數(shù)據(jù)集中β-發(fā)夾模體和非β-發(fā)夾模體的平均長度，分別是16.58和15.65，故選取固定序列模式長為17，截取規(guī)則為中心位點(diǎn)法.

1.2 特征參數(shù)

1.2.1 位點(diǎn)分析

使用weblogo網(wǎng)頁（http：//weblogo.berkeley.edu/logo.cgi）對ArchDB40數(shù)據(jù)集中β-發(fā)夾和非β-發(fā)夾模體的固定序列片段（12個(gè)位點(diǎn)）分別進(jìn)行統(tǒng)計(jì)分析，結(jié)果見圖2.

圖2 β-發(fā)夾和非β-發(fā)夾固定序列片段的位點(diǎn)氨基酸保守信息（ArchDB40數(shù)據(jù)集）

再用weblogo網(wǎng)頁（http：//weblogo.berkeley.edu/logo.cgi）對自建數(shù)據(jù)集中β-發(fā)夾和非β-發(fā)夾模體的固定序列片段（17個(gè)位點(diǎn)）分別進(jìn)行統(tǒng)計(jì)分析，結(jié)果見圖3.

圖3 β-發(fā)夾和非β-發(fā)夾固定序列片段的位點(diǎn)氨基酸保守信息（自建數(shù)據(jù)集）

1.2.2 參數(shù)選取

通過位點(diǎn)分析發(fā)現(xiàn)，ArchDB40數(shù)據(jù)庫和自建數(shù)據(jù)集中的固定序列片段的位點(diǎn)保守性都較強(qiáng)，故提取了以下幾項(xiàng)作為特征參數(shù).

1）位點(diǎn)氨基酸組分A 對ArchDB40數(shù)據(jù)集而言，由于固定序列模式長是12且采用了三種固定序列片段截取方式，所以每個(gè)固定序列片段的位點(diǎn)氨基酸組分［12-13］是一個(gè)756維（21 × 12 × 3，這里21表示20種氨基酸和1個(gè)空位）的向量；對自建數(shù)據(jù)集而言，由于固定序列模式長是17且僅采用了中心位點(diǎn)法一種截取方式，所以每個(gè)固定序列片段的位點(diǎn)氨基酸組分是一個(gè)357維（21 × 17）的向量.

2）位點(diǎn)親疏水組分Q 同理，對ArchDB40數(shù)據(jù)集而言，其位點(diǎn)親疏水組分［14］是一個(gè)252維（7 × 12 × 3，這里7表示6種親疏水特性和1個(gè)空位）的向量；對自建數(shù)據(jù)集而言，位點(diǎn)親疏水組分是一個(gè)119維（7 × 17）的向量.

3）基于位點(diǎn)氨基酸組分的離散增量值ID（A）以位點(diǎn)氨基酸組分作為ID的輸入?yún)?shù)，用訓(xùn)練集中的β-發(fā)夾序列片段和非β-發(fā)夾序列片段作標(biāo)準(zhǔn)離散源，進(jìn)而計(jì)算出檢驗(yàn)集中每條序列的2個(gè)離散增量值［15-18］.對ArchDB40數(shù)據(jù)集而言，由于采用了三種截取方式，所以每條被檢片段可得6個(gè)離散增量值ID（A）；對自建數(shù)據(jù)集而言，由于只有一種截取方式，所以每條被檢片段可得2個(gè)離散增量值ID（A）.

4）基于位點(diǎn)親疏水組分的離散增量值ID（Q）類似地，以位點(diǎn)親疏水組分作為ID的輸入?yún)?shù)，對ArchDB40數(shù)據(jù)集而言，每條被檢片段可計(jì)算得6個(gè)離散增量值ID（Q）；對自建數(shù)據(jù)集而言，每條被檢片段可計(jì)算得2個(gè)離散增量值ID（Q）.

5）基于位點(diǎn)氨基酸組分的打分函數(shù)值S（A）以位點(diǎn)氨基酸組分作為打分函數(shù)S的輸入?yún)?shù)，利用訓(xùn)練集中的β-發(fā)夾和非β-發(fā)夾構(gòu)造標(biāo)準(zhǔn)打分矩陣，進(jìn)而計(jì)算出檢驗(yàn)集中每條序列的2個(gè)打分值［19-22］.對ArchDB40數(shù)據(jù)集而言，由于采用了三種截取方式，所以每條被檢片段可得6個(gè)打分值S12（A）；對自建數(shù)據(jù)集而言，因只有一種截取方式，所以每條被檢片段可得2個(gè)打分值S17（A）.

6）預(yù)測的二級結(jié)構(gòu)信息PSS 預(yù)測的二級結(jié)構(gòu)信息由PSIPRED［5］得到，并用一個(gè)3維的向量來表示，其中的3個(gè)分量分別表示對β-發(fā)夾和非β-發(fā)夾模體序列片段進(jìn)行預(yù)測得到的α螺旋、β折疊和無規(guī)卷曲coil的頻數(shù).

1.3 算法簡介

1.3.1 隨機(jī)森林算法（RF）

隨機(jī)森林是Leo Breiman于2001年提出的一種新型機(jī)器學(xué)習(xí)算法［23-27］，其思想是將眾多弱分類器集成為一個(gè)強(qiáng)分類器進(jìn)行分類.隨機(jī)森林由很多互不關(guān)聯(lián)的決策樹組成，輸入樣本時(shí)森林中的每一棵決策樹各自進(jìn)行判斷，最終的決策結(jié)果則由綜合全部決策樹的分類結(jié)果而定.本文的隨機(jī)森林算法是通過R軟件［28-30］來實(shí)現(xiàn)的，使用的是R2.8.1版本（http：//www.r-project.org/）.

1.3.2 支持向量機(jī)算法（SVM）

支持向量機(jī)（SVM）算法是由Vapnik［31］等提出來的一種新型的機(jī)器學(xué)習(xí)方法，其基本思想是通過非線性變換把輸入向量映射到一個(gè)高維特征空間，再在高維特征空間構(gòu)造線性判別函數(shù)，進(jìn)而尋找最優(yōu)超平面，使其與各類樣本之間的距離達(dá)到最大.

本文支持向量機(jī)（SVM）算法是通過調(diào)用libsvm-2.89程序包［32］來實(shí)現(xiàn)的（http：//www.csie. ntu.edu.tw/～cjlin/libsvm）.

1.4 檢驗(yàn)方法和評價(jià)指標(biāo)

1.4.1 檢驗(yàn)方法

做模體預(yù)測常用的檢驗(yàn)方法有自洽檢驗(yàn)、獨(dú)立檢驗(yàn)、k-fold交叉檢驗(yàn)和Jack-knife檢驗(yàn).本文采用的是5-fold交叉檢驗(yàn)［6-7］，即將數(shù)據(jù)集平均分成5份，其中4份作為訓(xùn)練集，剩余的1份作為檢驗(yàn)集，重復(fù)做5次獨(dú)立檢驗(yàn)后求其平均的檢驗(yàn)方法.

1.4.2 評價(jià)指標(biāo)

本文使用的評價(jià)指標(biāo)［6-7］有：Qo（H）、Qo（NH）、Qp（H）、Qp（NH）、Acc和MCC，具體計(jì)算公式如下：

其中，p為β-發(fā)夾被正確識別的數(shù)量，r為非β-發(fā)夾被正確識別的數(shù)量，u為β-發(fā)夾被預(yù)測為非β-發(fā)夾的數(shù)量，o為非β-發(fā)夾被預(yù)測為β-發(fā)夾的數(shù)量.

2 結(jié)果與分析

2.1 對ArchDB40數(shù)據(jù)集的預(yù)測結(jié)果

對ArchDB40數(shù)據(jù)庫中的β-發(fā)夾模體，用基于位點(diǎn)氨基酸組分得到的6個(gè)離散增量值ID（A）、基于位點(diǎn)親疏水組分得到的6個(gè)離散增量值ID（Q）、基于位點(diǎn)氨基酸組分得到的6個(gè)打分函數(shù)值S12（A）和3維預(yù)測的二級結(jié)構(gòu)信息PSS的組合向量作為特征參數(shù)（ID（A） + ID（Q） + S12（A） + PSS），采用支持向量機(jī)（SVM）算法進(jìn)行預(yù)測，其5-fold交叉檢驗(yàn)的Acc和MCC的值分別為79.4％和0.49.采用隨機(jī)森林（RF）算法對該數(shù)據(jù)庫中的β-發(fā)夾模體進(jìn)行預(yù)測，實(shí)施5-fold交叉檢驗(yàn)，Acc和MCC的值均得到了提高，分別達(dá)到82.0％和0.55，具體結(jié)果見表1.

2.2 對自建數(shù)據(jù)集的預(yù)測結(jié)果

對于自建數(shù)據(jù)集中的β-發(fā)夾模體，我們也提取了ID（A） + ID（Q） + S17（A） + PSS作為特征參數(shù)進(jìn)行預(yù)測，其支持向量機(jī)（SVM）算法結(jié)合5-fold交叉檢驗(yàn)的結(jié)果是：Acc和MCC的值分別為80.2％和0.51.采用隨機(jī)森林（RF）算法對該數(shù)據(jù)庫中的β-發(fā)夾模體進(jìn)行預(yù)測，實(shí)施5-fold交叉檢驗(yàn)，其結(jié)果也有所提高，Acc和MCC的值分別達(dá)到83.5％和0.59，具體結(jié)果見表2.

表1 對ArchDB40數(shù)據(jù)庫中β-發(fā)夾預(yù)測的結(jié)果比較

表2 對自建數(shù)據(jù)庫中β-發(fā)夾預(yù)測結(jié)果的比較

2.3 基于高維特征參數(shù)的隨機(jī)森林算法的預(yù)測結(jié)果

考慮到隨機(jī)森林算法所具有的特殊性能，我們也直接使用位點(diǎn)氨基酸組分（A）、位點(diǎn)親疏水組分（Q）和預(yù)測的二級結(jié)構(gòu)（PSS）的組合向量（A + Q + PSS）作為輸入?yún)?shù)進(jìn)行識別.需要指出的是對ArchDB40數(shù)據(jù)庫中的β-發(fā)夾來說，這里的位點(diǎn)氨基酸組分（A）和位點(diǎn)親疏水組分（Q）僅建立在前兩種截取方式（5-12和8-12）之上，故A + Q + PSS參數(shù)共675（21 × 12 × 2 + 7 × 12 × 2 + 3）維，將其輸入RF算法做5-fold交叉檢驗(yàn)，其Acc和MCC的值分別是83.3％和0.59.對自建數(shù)據(jù)集中的β-發(fā)夾來說，由于每個(gè)片段只有一種截取方式，故A + Q + PSS參數(shù)共479維（21 × 17 + 7 × 17 + 3），將其輸入RF算法做5-交叉檢驗(yàn)，其預(yù)測精度和相關(guān)系數(shù)分別是85.2％和0.62，詳細(xì)結(jié)果見表3.

3 結(jié) 論

本文對β-發(fā)夾模體的預(yù)測探索有以下幾點(diǎn)創(chuàng)新：1）整理了一個(gè)新的β-發(fā)夾數(shù)據(jù)集，這不僅豐富了β-發(fā)夾的模體數(shù)，而且使得β-發(fā)夾模體包含的信息更加全面；2）對比了隨機(jī)森林（RF）和支持向量機(jī)（SVM）兩種算法的分類效果，結(jié)果顯示RF算法要好于SVM算法；3）選取了高維特征參數(shù)（A + Q + PSS）輸入RF算法進(jìn)行預(yù)測，其結(jié)果得到進(jìn)一步改善.

［1］ Kuhn M， Meiler J， Baker D. Strand-loop-strand motifs： Prediction of hairpins and diverging turns in proteins ［J］. Proteins： Structure， Function， and Bioinformatics， 2004， 54（2）： 282-288.

［2］ Wintjens R T， Rooman M J， Wodak S J. Automatic classification and analysis of alpha-alpha-turn motifs in proteins［J］. Journal of Molecular Biology， 1996， 255（1）： 235-253.

［3］ Jones D T. Protein secondary structure prediction based on position-specific scoring matrices ［J］. Journal of Molecular Biology， 1999， 292（2）： 195-202.

［4］ Cruz X， Hutchinson E G， Shepherd A. Toward predicting protein topology： an approach to identifying β hairpins ［J］. Proceedings of the National Academy Sciences of the USA， 2002， 99（17）： 11157-11162.

［5］ Kumar M， Bhasin M， Natt N K， et al. BhairPred： prediction of β-hairpins in a protein from multiple alignment information using ANN and SVM techniques ［J］. Nucleic Acids Research， 2005， 33： 154-159.

［6］ Hu X Z， Li Q Z. Prediction of the β-hairpins in proteins using support vector machine ［J］.Protein Journal， 2008， 27（2）：115-122.

［7］ Hu X Z， Li Q Z， Wang C L. Recognition of β-hairpin motifs in proteins by using the composite vector ［J］. Amino Acids， 2010， 38（3）： 915-921.

［8］ Oliva A， Bates P A， Querol E， et al. An automated classification of the structure of protein loops ［J］. Journal of Molecular Biology， 1997， 266（4）： 814-830.

［9］ Espadaler J， Fuentes N F， Hermoso A， et al. ArchDB： automated protein loop classification as a tool for structural genomics ［J］. Nucleic Acids Research， 2004（32）： 185-188.

［10］ Kabsch W， Sander C. Dictionary of protein secondary structure： Pattern recognition of hydrogen-bonded and geometrical features ［J］. Biopolymers， 1983， 22（12）： 2577-2637.

［11］ Hutchinson E G， Thornton J M. PROMOTIF-A program to identify and analyze structural motifs in proteins ［J］. Protein Science， 1996， 5（2）： 212-220.

［12］ Panek J， Eidhammer I， Aasland R. A new method for identification of protein （sub） families in a set of proteins based on hydropathy distribution in proteins ［J］. Proteins： Structure， Function， Bioinformatics， 2005， 58（4）： 923-934.

［13］高蘇娟，胡秀珍. 蛋白質(zhì)中四類簡單超二級結(jié)構(gòu)的分類［J］. 內(nèi)蒙古工業(yè)大學(xué)學(xué)報(bào)， 2013， 32（1）： 21-26.

［14］賈少春，胡秀珍. 基于添加功能位點(diǎn)信息的組合向量預(yù)測β-發(fā)夾模體［J］. 內(nèi)蒙古工業(yè)大學(xué)學(xué)報(bào)， 2012， 31（3）：1-9.

［15］ Laxton R R. The measure of diversity ［J］. Journal of Theoretical Biology， 1978， 71（1）： 51-67.

［16］ Zhang L R， Luo L F. Splice site prediction with quadratic discriminate analysis using diversity measure ［J］. Nucleic Acids Research， 2003， 31（21）： 6214-6220.

［17］ Chen Y L， Li Q Z. Prediction of the subcellular location of apoptosis proteins ［J］. Journal of Theoretical Biology，2007， 245（4）： 775-783.

［18］宋航宇，胡秀珍，馮振興，等. 基于統(tǒng)計(jì)特征的酶蛋白質(zhì)中特殊模體βαβ的預(yù)測［J］. 生物物理學(xué)報(bào)， 2013，29（9）： 658-668.

［19］ Kel A E， Gobling E， Reuter I， et al. MATCHTM： a tool for searching transcription factor binding sites in DNA sequences ［J］. Nucleic Acids Research， 2003， 31（13）： 3576-3579.

［20］楊科利，李前忠，林昊. 預(yù)測酵母（Yeast）基因轉(zhuǎn)錄因子結(jié)合位點(diǎn)［J］. 內(nèi)蒙古大學(xué)學(xué)報(bào)（自然科學(xué)版）， 2006，37（5）： 524-530.

［21］ Cartharius K， Frech K， Grote K， et al. MatInspector and beyond： promoter analysis based on transcription factor binding sites ［J］. Bioinformatics， 2005， 21（13）： 2933-2942.

［22］宋航宇，胡秀珍. 基于矩陣打分值和化學(xué)位移值預(yù)測酶蛋白質(zhì)中β-發(fā)夾模體［J］. 內(nèi)蒙古工業(yè)大學(xué)學(xué)報(bào)， 2014，33（3）： 175-180.

［23］ Breiman L. Random forests ［J］. Machine Learning， 2001， 45（1）： 5-32.

［24］ Okun O， Priisalu H. Random forest for gene expression based cancer classification： Overlooked issues ［J］. PatternRecognition and Image Analysis， 2007， 4478（partⅡ）： 483-490.

［25］袁敏，胡秀珍. 隨機(jī)森林方法預(yù)測膜蛋白類型［J］. 生物物理學(xué)報(bào)， 2009， 25（5）： 349-355.

［26］王麗愛，馬昌，周旭東，等. 基于隨機(jī)森林回歸算法的小麥葉片SPAD值遙感估算［J］. 農(nóng)業(yè)機(jī)械學(xué)報(bào)， 2015，46（1）： 259-265.

［27］林劼，林舒曄. 基于隨機(jī)森林算法的葡萄酒品質(zhì)預(yù)測方法［J］. 莆田學(xué)院學(xué)報(bào)， 2012， 19（5）： 88-92.

［28］ Liaw A， Wiener M. Classification and regression by random forest ［J］. R News， 2002， 2（3）： 18-22.

［29］張超，孫鳳，曾憲濤. R軟件調(diào)用JAGS軟件實(shí)現(xiàn)網(wǎng)狀Meta分析［J］. 中國循證醫(yī)學(xué)雜志， 2014， 14（2）： 241-248.

［30］張超，耿培亮，郭毅，等. 應(yīng)用R語言netmeta程序包實(shí)現(xiàn)網(wǎng)狀Meta分析［J］. 中國循證醫(yī)學(xué)雜志， 2014， 14（5）：625-630.

［31］ Vapnik V. An overview of statistical learning theory ［J］. IEEE Transactions on Neural Networks， 1999， 10（5）：988-999.

［32］ Chang C C， Lin C J. LIBSVM： a library for support vector machines ［J］. ACM Transactions on Intelligent Systems and Technology， 2011， 2（3）： 389-396.

Comparison between Random Forest and Support Vector Machine Algorithm for Prediction of β-hairpin Motif

JIA Shaochun
（Department of Mathematics， Xinzhou Teachers College， Xinzhou， China 034000）

Based on the prediction exploration of β-hairpin motifs in proteins， the random forest and support vector machine algorithm is applied in this paper to predict β-hairpin motifs in ArchDB40 （Specific database name） and the self-built dataset. For the same dataset， when using the same characteristic parameters and the same test method， Random Forest algorithm is more accurate than Support Vector Machine. In addition，Random Forest algorithm never results in the overfitting phenomenon under the higher dimension of characteristic parameters， so the Random Forest based on higher dimension characteristic parameters is applied to predict β-hairpin motifs. The better prediction results are obtained： 1. Prediction of β-hairpin motifs in ArchDB40 dataset， the overall accuracy and Matthew’s correlation coefficient of 5-fold cross-validation achieve 83.3％ and 0.59 respectively； 2. Prediction of β-hairpin motifs in the self-built dataset， the overall accuracy and Matthew’s correlation coefficient of 5-fold cross-validation achieve 85.2％ and 0.62，respectively.

Random Forest Algorithm； Support Vector Machine（SVM） Algorithm； β-hairpin Motif；Increment of Diversity； Predicted Secondary Structure Information

TP181

1674-3563（2016）03-0026-08

10.3875/j.issn.1674-3563.2016.03.005 本文的PDF文件可以從xuebao.wzu.edu.cn獲得

（編輯：王一芳）

2016-03-15

賈少春（1984- ），女，山西原平人，助教，碩士，研究方向：算法和模體預(yù)測