亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        利用偽氨基酸組分和支持向量機(jī)預(yù)測(cè)抗凍蛋白

        2013-11-14 07:10:32
        生物信息學(xué) 2013年4期
        關(guān)鍵詞:信息模型

        許 嘉

        (內(nèi)蒙古科技大學(xué)分析測(cè)試中心,內(nèi)蒙古包頭014010)

        抗凍蛋白(Antifreeze protein,AFP)是一類能夠特異性結(jié)合冰晶、提高生物抗凍能力的蛋白質(zhì)[1]。這類蛋白最初是在南北極的海洋魚類血清中發(fā)現(xiàn),近年來(lái),在昆蟲(chóng)、真菌、細(xì)菌和某些植物體內(nèi)也均發(fā)現(xiàn)存在抗凍蛋白。這類蛋白通過(guò)與冰晶的特異性相互作用,阻止生物體內(nèi)冰核的形成與生長(zhǎng),維持生物體內(nèi)的溶液狀態(tài)。因此,對(duì)抗凍蛋白的理論研究有助于揭示抗凍蛋白的活性和抗凍機(jī)理。

        正確判斷一條新測(cè)序的蛋白質(zhì)是否為抗凍蛋白對(duì)于生物工程發(fā)展、作物的改造十分重要。然而,利用實(shí)驗(yàn)手段來(lái)判斷是否是抗凍蛋白不但費(fèi)時(shí),而且會(huì)消耗很多資源。隨著大量生物基因組測(cè)序的完成,海量基因組、蛋白質(zhì)組、轉(zhuǎn)錄組數(shù)據(jù)的產(chǎn)生,利用機(jī)器學(xué)習(xí)算法來(lái)預(yù)測(cè)蛋白質(zhì)的類型和功能不僅節(jié)約了實(shí)驗(yàn)成本,而且能夠大大提高實(shí)驗(yàn)效率。后基因組時(shí)代為我們提供了大量蛋白質(zhì)序列和注釋信息,同時(shí)為理論預(yù)測(cè)抗凍蛋白提供了可能性[2]。

        目前,已有一些判別方法用于抗凍蛋白的預(yù)測(cè)[3-4],且取得了一定的結(jié)果。然而,仍缺乏對(duì)抗凍蛋白有效的描述。本文利用偽氨基酸組分來(lái)描述抗凍蛋白序列,并利用支持向量機(jī)來(lái)對(duì)抗凍蛋白進(jìn)行預(yù)測(cè)。

        1 數(shù)據(jù)庫(kù)

        抗凍蛋白原始數(shù)據(jù)從 http://www3.ntu.edu.sg/home/EPNSugan/index_files/AFP-Pred.htm[3]下載。該數(shù)據(jù)集包含了481條抗凍蛋白序列和9 193條非抗凍蛋白序列,這些數(shù)據(jù)的序列一致性低于40%。如果正負(fù)數(shù)據(jù)集的數(shù)目偏差過(guò)大,會(huì)導(dǎo)致錯(cuò)誤的評(píng)估預(yù)測(cè)模型。因此,為了平衡正負(fù)集數(shù)據(jù),分別選取400條抗凍蛋白和400條非抗凍蛋白作為基準(zhǔn)數(shù)據(jù)集,并進(jìn)一步將正負(fù)數(shù)據(jù)集隨機(jī)分為訓(xùn)練集和測(cè)試。這兩集合分別包含200條抗凍蛋白和200條非抗凍蛋白。

        2 預(yù)測(cè)算法

        2.1 特征提取

        偽氨基酸組分(PseAAC)[5]是 Chou教授提出的一種能夠很好地表征蛋白質(zhì)序列的信息參數(shù)。它不但能夠描述蛋白質(zhì)序列的氨基酸組成,而且能夠描述蛋白質(zhì)氨基酸序列的物理化學(xué)性質(zhì)的關(guān)聯(lián)。下面對(duì)偽氨基酸組分進(jìn)行描述。

        如果將一個(gè)氨基酸殘基數(shù)為L(zhǎng)的蛋白質(zhì)X表示成,R1R2R3…RL那么,這條蛋白質(zhì)序列就可以表示成由20+λ個(gè)離散數(shù)值定義的一個(gè)20+λ維向量,定義形式如下:

        這里

        其中,fi表示20種不同氨基酸殘基在蛋白質(zhì)X中出現(xiàn)的頻率。ω是蛋白質(zhì)序列關(guān)聯(lián)的權(quán)重因子。通常,權(quán)重因子的選擇范圍定在ω=0.05到0.7之間,這里我們選取ω=0.05。θj是j階序列相關(guān)系數(shù):

        公式(3)中相關(guān)性函數(shù)Θ(Ri,Ri+j)是可以由以下公式得出:

        其中,k是因子個(gè)數(shù),Hl(Ri)是第i個(gè)氨基酸殘基所具有的任一種物理化學(xué)特征。這些物理化學(xué)特征主要包括親水性,疏水性,側(cè)鏈聚集度,a-COOH基的PK值,α-NH3+基的PK值,溫度為25℃時(shí)的pI值。這些物化性質(zhì)的值需經(jīng)過(guò)標(biāo)準(zhǔn)化處理,公式如下:

        這里Hl0(i)是第i個(gè)氨基酸殘基物理化學(xué)特征值的原始值,可從網(wǎng)站 http://chou.med.harvard.edu/bioinf/PseAAC/獲得。

        2.2 支持向量機(jī)

        支持向量機(jī)是一種優(yōu)秀的機(jī)器學(xué)習(xí)方法,并已廣泛運(yùn)用于生物信息學(xué)的領(lǐng)域,比如:轉(zhuǎn)錄起始點(diǎn)和蛋白質(zhì)亞細(xì)胞定位等多個(gè)方面。其優(yōu)點(diǎn)在于能夠同時(shí)最小化經(jīng)驗(yàn)誤差與最大化幾何邊緣區(qū),因此支持向量機(jī)也被稱為最大邊緣區(qū)分類器。其基本思想是將向量映射到一個(gè)更高維的空間里,使得不同類型的向量在高維空間中線性可分。對(duì)于待分類樣本,其判別函數(shù)具有如下形式:

        其中,k(x,xi)稱為核函數(shù),通過(guò)選取不同的核函數(shù)可以得到不同的支持向量機(jī),常用的核函數(shù)有以下幾種形式:

        (6)~(8)式中,d、γ、b和 c分別為三種核函數(shù)的可調(diào)參數(shù)。本文采用由Chang和Lin開(kāi)發(fā)的LIBSVM軟件包[6],選取徑向基函數(shù)(RBF)作為支持向量機(jī)的核函數(shù),調(diào)整誤差懲罰參數(shù)C及核函數(shù)參數(shù)γ,可得到最佳預(yù)測(cè)模型。這里使用LIBSVM中的gridsearch程序來(lái)優(yōu)化參數(shù)C和γ。

        2.3 精度估計(jì)

        利用敏感性(Sensitivity,Sn)、特異性(Specificity,Sp)和總體準(zhǔn)確率(Overall accuracy,OA)為評(píng)價(jià)指標(biāo)測(cè)試模型的預(yù)測(cè)性能,其定義如下:

        其中,TP、TN、FP和FN分別為正確預(yù)測(cè)抗凍蛋白數(shù)目,正確預(yù)測(cè)的非抗凍蛋白,非抗凍蛋白預(yù)測(cè)成為抗凍蛋白的數(shù)目和抗凍蛋白預(yù)測(cè)成非抗凍蛋白的數(shù)目。

        3 結(jié)果與討論

        以偽氨基酸組分為特征,利用支持向量機(jī)進(jìn)行分類。利用grid方法對(duì)訓(xùn)練集進(jìn)行參數(shù)尋優(yōu),建立最優(yōu)模型。發(fā)現(xiàn)當(dāng)C=32 768且γ=0.001 953 125時(shí),模型的預(yù)測(cè)精度最高,對(duì)訓(xùn)練集預(yù)測(cè)精度達(dá)到91.3%。為檢驗(yàn)?zāi)P偷耐茝V能力,我們利用構(gòu)建好的模型對(duì)400條測(cè)試序列進(jìn)行預(yù)測(cè),結(jié)果表明有78.8%的蛋白質(zhì)被預(yù)測(cè)成功,其中75.1%的抗凍蛋白和83.6%的非抗凍蛋白能夠被正確預(yù)測(cè)。該結(jié)果證明偽氨基酸組分可用于抗凍蛋白的預(yù)測(cè)。

        AFP-Pred是第一款用于抗凍蛋白預(yù)測(cè)的軟件[3],其構(gòu)建基于300條抗凍蛋白和300條抗凍蛋白。通過(guò)使用隨機(jī)森林算法對(duì)抗凍蛋白進(jìn)行預(yù)測(cè),對(duì)訓(xùn)練集的預(yù)測(cè)精度達(dá)到81.3%,對(duì)測(cè)試集的預(yù)測(cè)精度達(dá)到 83.4%。最近,Zhao Xiaowei等開(kāi)發(fā)了AFP_PSSM來(lái)預(yù)測(cè)抗凍蛋白[4],對(duì)訓(xùn)練集的預(yù)測(cè)精度為82.7%,對(duì)測(cè)試集的預(yù)測(cè)精度達(dá)到93.0%。

        盡管已有對(duì)測(cè)試集的預(yù)測(cè)精度高于本研究結(jié)果,但對(duì)于訓(xùn)練集,本研究結(jié)果仍具備優(yōu)勢(shì)。此外,這些方法大多使用了蛋白質(zhì)序列的進(jìn)化信息和預(yù)測(cè)的二級(jí)結(jié)構(gòu)信息,這些信息的獲得和提取比本研究使用的偽氨基酸組分要更加復(fù)雜。特別是當(dāng)查詢的數(shù)據(jù)庫(kù)中沒(méi)有待查詢序列的同源序列時(shí),進(jìn)化信息將不可用;當(dāng)二級(jí)結(jié)構(gòu)預(yù)測(cè)軟件錯(cuò)誤的預(yù)測(cè)了蛋白質(zhì)結(jié)構(gòu)時(shí),那么提取的二級(jí)結(jié)構(gòu)信息也不可信。因此,只從蛋白質(zhì)一級(jí)序列出發(fā)來(lái)預(yù)測(cè)抗凍蛋白,能夠避免以上問(wèn)題的出現(xiàn)。

        盡管目前的研究結(jié)果還不十分令人滿意,但隨著蛋白質(zhì)序列數(shù)據(jù)庫(kù)的不斷充實(shí),將考慮更多的信息,如寡肽頻率、氨基酸約化等信息,以期提高分類模型的預(yù)測(cè)準(zhǔn)確率。

        References)

        [1] Carvajal-Rondanelli PA,Marshall SH,Guzman F.Antifreeze glycoprotein agents:structural requirements for activity[J].Journal Science Food Agricuture,2011,91(14):2507-2510.

        [2] Garner J,Harding MM.Design and synthesis of antifreeze glycoproteins and mimics[J].Chembiochem,2010,11(18):2489-2498.

        [3] Kandaswamy KK,Chou KC,Martinetz T,M?ller S,Suganthan PN,Sridharan S,Pugalenthi G.AFP-Pred:A random forest approach for predicting antifreeze proteins from sequence-derived properties[J].Journal of Theoretical Biology,2011,270(1):56-62.

        [4] Zhao Xiaowei,Ma Zhiqiang,Yin Minghao.Using support vector machine and evolutionary profiles to predict antifreeze protein sequences[J].Interntional Journal of Molecular Science,2012,13(2):2196-2207.

        [5] Chou KC.Prediction of protein cellular attributes using pseudo-amino acid composition[J].Proteins,2001,43(3):246-255.

        [6] Fan RE,Chen PH,Lin CJ.Working set selection using the second order information for training SVM[J].Journal of Multivariate Analysis,2005,6:1889-1918.

        猜你喜歡
        信息模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        展會(huì)信息
        一個(gè)相似模型的應(yīng)用
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        少妇下蹲露大唇无遮挡| 久久久精品国产三级精品| 国产91人妻一区二区三区| 久久久久成人精品无码| 日韩一线无码av毛片免费| 区无码字幕中文色| 亚洲国产最新免费av| 久久久久亚洲av成人片| 女女女女bbbbbb毛片在线| 亚洲网站免费看| 日韩亚洲在线观看视频| 麻豆亚洲av熟女国产一区二| 国产超碰人人做人人爱ⅴa| 日本道免费精品一区二区| 亚洲一区二区日韩精品| 亚洲a∨无码精品色午夜| 国产成人av免费观看| 亚洲欧美日韩精品久久亚洲区色播| 成人爽a毛片免费网站中国| 久久精品国产亚洲av无码偷窥| av片在线观看免费| 人妻少妇人人丰满视频网站| 国产3p一区二区三区精品| 疯狂做受xxxx国产| 免费现黄频在线观看国产| 中国老太老肥熟女视频 | 久久一本日韩精品中文字幕屁孩| 国产女人高潮叫床视频| 国产精品久久码一区二区| 91中文字幕精品一区二区| 欧美性猛交xxxx乱大交极品| 三级在线看中文字幕完整版| 国产欧美日韩专区毛茸茸| 国产精品久久av色婷婷网站| 成人亚洲精品777777| 国产一级做a爱免费观看| 91在线观看国产自拍| 国产精品亚洲专区无码不卡| 囯产精品一品二区三区| 99久久精品久久久| 人妖一区二区三区在线|