亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        利用偽氨基酸組分和支持向量機預(yù)測抗凍蛋白

        2013-11-14 07:10:32
        生物信息學 2013年4期
        關(guān)鍵詞:組分氨基酸向量

        許 嘉

        (內(nèi)蒙古科技大學分析測試中心,內(nèi)蒙古包頭014010)

        抗凍蛋白(Antifreeze protein,AFP)是一類能夠特異性結(jié)合冰晶、提高生物抗凍能力的蛋白質(zhì)[1]。這類蛋白最初是在南北極的海洋魚類血清中發(fā)現(xiàn),近年來,在昆蟲、真菌、細菌和某些植物體內(nèi)也均發(fā)現(xiàn)存在抗凍蛋白。這類蛋白通過與冰晶的特異性相互作用,阻止生物體內(nèi)冰核的形成與生長,維持生物體內(nèi)的溶液狀態(tài)。因此,對抗凍蛋白的理論研究有助于揭示抗凍蛋白的活性和抗凍機理。

        正確判斷一條新測序的蛋白質(zhì)是否為抗凍蛋白對于生物工程發(fā)展、作物的改造十分重要。然而,利用實驗手段來判斷是否是抗凍蛋白不但費時,而且會消耗很多資源。隨著大量生物基因組測序的完成,海量基因組、蛋白質(zhì)組、轉(zhuǎn)錄組數(shù)據(jù)的產(chǎn)生,利用機器學習算法來預(yù)測蛋白質(zhì)的類型和功能不僅節(jié)約了實驗成本,而且能夠大大提高實驗效率。后基因組時代為我們提供了大量蛋白質(zhì)序列和注釋信息,同時為理論預(yù)測抗凍蛋白提供了可能性[2]。

        目前,已有一些判別方法用于抗凍蛋白的預(yù)測[3-4],且取得了一定的結(jié)果。然而,仍缺乏對抗凍蛋白有效的描述。本文利用偽氨基酸組分來描述抗凍蛋白序列,并利用支持向量機來對抗凍蛋白進行預(yù)測。

        1 數(shù)據(jù)庫

        抗凍蛋白原始數(shù)據(jù)從 http://www3.ntu.edu.sg/home/EPNSugan/index_files/AFP-Pred.htm[3]下載。該數(shù)據(jù)集包含了481條抗凍蛋白序列和9 193條非抗凍蛋白序列,這些數(shù)據(jù)的序列一致性低于40%。如果正負數(shù)據(jù)集的數(shù)目偏差過大,會導致錯誤的評估預(yù)測模型。因此,為了平衡正負集數(shù)據(jù),分別選取400條抗凍蛋白和400條非抗凍蛋白作為基準數(shù)據(jù)集,并進一步將正負數(shù)據(jù)集隨機分為訓練集和測試。這兩集合分別包含200條抗凍蛋白和200條非抗凍蛋白。

        2 預(yù)測算法

        2.1 特征提取

        偽氨基酸組分(PseAAC)[5]是 Chou教授提出的一種能夠很好地表征蛋白質(zhì)序列的信息參數(shù)。它不但能夠描述蛋白質(zhì)序列的氨基酸組成,而且能夠描述蛋白質(zhì)氨基酸序列的物理化學性質(zhì)的關(guān)聯(lián)。下面對偽氨基酸組分進行描述。

        如果將一個氨基酸殘基數(shù)為L的蛋白質(zhì)X表示成,R1R2R3…RL那么,這條蛋白質(zhì)序列就可以表示成由20+λ個離散數(shù)值定義的一個20+λ維向量,定義形式如下:

        這里

        其中,fi表示20種不同氨基酸殘基在蛋白質(zhì)X中出現(xiàn)的頻率。ω是蛋白質(zhì)序列關(guān)聯(lián)的權(quán)重因子。通常,權(quán)重因子的選擇范圍定在ω=0.05到0.7之間,這里我們選取ω=0.05。θj是j階序列相關(guān)系數(shù):

        公式(3)中相關(guān)性函數(shù)Θ(Ri,Ri+j)是可以由以下公式得出:

        其中,k是因子個數(shù),Hl(Ri)是第i個氨基酸殘基所具有的任一種物理化學特征。這些物理化學特征主要包括親水性,疏水性,側(cè)鏈聚集度,a-COOH基的PK值,α-NH3+基的PK值,溫度為25℃時的pI值。這些物化性質(zhì)的值需經(jīng)過標準化處理,公式如下:

        這里Hl0(i)是第i個氨基酸殘基物理化學特征值的原始值,可從網(wǎng)站 http://chou.med.harvard.edu/bioinf/PseAAC/獲得。

        2.2 支持向量機

        支持向量機是一種優(yōu)秀的機器學習方法,并已廣泛運用于生物信息學的領(lǐng)域,比如:轉(zhuǎn)錄起始點和蛋白質(zhì)亞細胞定位等多個方面。其優(yōu)點在于能夠同時最小化經(jīng)驗誤差與最大化幾何邊緣區(qū),因此支持向量機也被稱為最大邊緣區(qū)分類器。其基本思想是將向量映射到一個更高維的空間里,使得不同類型的向量在高維空間中線性可分。對于待分類樣本,其判別函數(shù)具有如下形式:

        其中,k(x,xi)稱為核函數(shù),通過選取不同的核函數(shù)可以得到不同的支持向量機,常用的核函數(shù)有以下幾種形式:

        (6)~(8)式中,d、γ、b和 c分別為三種核函數(shù)的可調(diào)參數(shù)。本文采用由Chang和Lin開發(fā)的LIBSVM軟件包[6],選取徑向基函數(shù)(RBF)作為支持向量機的核函數(shù),調(diào)整誤差懲罰參數(shù)C及核函數(shù)參數(shù)γ,可得到最佳預(yù)測模型。這里使用LIBSVM中的gridsearch程序來優(yōu)化參數(shù)C和γ。

        2.3 精度估計

        利用敏感性(Sensitivity,Sn)、特異性(Specificity,Sp)和總體準確率(Overall accuracy,OA)為評價指標測試模型的預(yù)測性能,其定義如下:

        其中,TP、TN、FP和FN分別為正確預(yù)測抗凍蛋白數(shù)目,正確預(yù)測的非抗凍蛋白,非抗凍蛋白預(yù)測成為抗凍蛋白的數(shù)目和抗凍蛋白預(yù)測成非抗凍蛋白的數(shù)目。

        3 結(jié)果與討論

        以偽氨基酸組分為特征,利用支持向量機進行分類。利用grid方法對訓練集進行參數(shù)尋優(yōu),建立最優(yōu)模型。發(fā)現(xiàn)當C=32 768且γ=0.001 953 125時,模型的預(yù)測精度最高,對訓練集預(yù)測精度達到91.3%。為檢驗?zāi)P偷耐茝V能力,我們利用構(gòu)建好的模型對400條測試序列進行預(yù)測,結(jié)果表明有78.8%的蛋白質(zhì)被預(yù)測成功,其中75.1%的抗凍蛋白和83.6%的非抗凍蛋白能夠被正確預(yù)測。該結(jié)果證明偽氨基酸組分可用于抗凍蛋白的預(yù)測。

        AFP-Pred是第一款用于抗凍蛋白預(yù)測的軟件[3],其構(gòu)建基于300條抗凍蛋白和300條抗凍蛋白。通過使用隨機森林算法對抗凍蛋白進行預(yù)測,對訓練集的預(yù)測精度達到81.3%,對測試集的預(yù)測精度達到 83.4%。最近,Zhao Xiaowei等開發(fā)了AFP_PSSM來預(yù)測抗凍蛋白[4],對訓練集的預(yù)測精度為82.7%,對測試集的預(yù)測精度達到93.0%。

        盡管已有對測試集的預(yù)測精度高于本研究結(jié)果,但對于訓練集,本研究結(jié)果仍具備優(yōu)勢。此外,這些方法大多使用了蛋白質(zhì)序列的進化信息和預(yù)測的二級結(jié)構(gòu)信息,這些信息的獲得和提取比本研究使用的偽氨基酸組分要更加復雜。特別是當查詢的數(shù)據(jù)庫中沒有待查詢序列的同源序列時,進化信息將不可用;當二級結(jié)構(gòu)預(yù)測軟件錯誤的預(yù)測了蛋白質(zhì)結(jié)構(gòu)時,那么提取的二級結(jié)構(gòu)信息也不可信。因此,只從蛋白質(zhì)一級序列出發(fā)來預(yù)測抗凍蛋白,能夠避免以上問題的出現(xiàn)。

        盡管目前的研究結(jié)果還不十分令人滿意,但隨著蛋白質(zhì)序列數(shù)據(jù)庫的不斷充實,將考慮更多的信息,如寡肽頻率、氨基酸約化等信息,以期提高分類模型的預(yù)測準確率。

        References)

        [1] Carvajal-Rondanelli PA,Marshall SH,Guzman F.Antifreeze glycoprotein agents:structural requirements for activity[J].Journal Science Food Agricuture,2011,91(14):2507-2510.

        [2] Garner J,Harding MM.Design and synthesis of antifreeze glycoproteins and mimics[J].Chembiochem,2010,11(18):2489-2498.

        [3] Kandaswamy KK,Chou KC,Martinetz T,M?ller S,Suganthan PN,Sridharan S,Pugalenthi G.AFP-Pred:A random forest approach for predicting antifreeze proteins from sequence-derived properties[J].Journal of Theoretical Biology,2011,270(1):56-62.

        [4] Zhao Xiaowei,Ma Zhiqiang,Yin Minghao.Using support vector machine and evolutionary profiles to predict antifreeze protein sequences[J].Interntional Journal of Molecular Science,2012,13(2):2196-2207.

        [5] Chou KC.Prediction of protein cellular attributes using pseudo-amino acid composition[J].Proteins,2001,43(3):246-255.

        [6] Fan RE,Chen PH,Lin CJ.Working set selection using the second order information for training SVM[J].Journal of Multivariate Analysis,2005,6:1889-1918.

        猜你喜歡
        組分氨基酸向量
        向量的分解
        組分分發(fā)管理系統(tǒng)在天然氣計量的應(yīng)用
        一種難溶難熔未知組分板材的定性分析
        聚焦“向量與三角”創(chuàng)新題
        月桂酰丙氨基酸鈉的抑菌性能研究
        黑順片不同組分對正常小鼠的急性毒性
        中成藥(2018年8期)2018-08-29 01:28:26
        金雀花中黃酮苷類組分鑒定及2種成分測定
        中成藥(2018年2期)2018-05-09 07:20:09
        UFLC-QTRAP-MS/MS法同時測定絞股藍中11種氨基酸
        中成藥(2018年1期)2018-02-02 07:20:05
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        午夜视频一区二区三区在线观看| 99久久精品国产一区二区蜜芽| 国产一区二区三区精品免费av | 亚洲欧美在线观看| 免费人成年小说在线观看| 国产午夜亚洲精品一级在线| 五十路在线中文字幕在线中文字幕| 乱码窝窝久久国产无人精品| 国产精品_国产精品_k频道w| 综合色久七七综合尤物| 午夜无码熟熟妇丰满人妻| 久久精品中文字幕免费| 丝袜人妻中文字幕首页| 国产熟女露脸91麻豆| 人妻体内射精一区二区三四| 无码精品a∨在线观看| 93精91精品国产综合久久香蕉| 国产裸体AV久无码无遮挡| 日本一区二区三区不卡在线| 激情人妻另类人妻伦| 亚洲美腿丝袜 欧美另类| 亚洲欧洲久久久精品| 久久麻豆精亚洲av品国产精品| 亚洲中文字幕在线第六区| 永久天堂网av手机版| 久久不见久久见免费视频7| 欧美亚洲国产人妖系列视| 综合久久加勒比天然素人 | 亚洲国产av一区二区三| 女主播啪啪大秀免费观看| 色综合久久久无码中文字幕| 狠狠色噜噜狠狠狠狠米奇777| 国产成人精品三级在线影院| 日韩精品人妻少妇一区二区| 与漂亮的女邻居少妇好爽| 久久久久人妻一区精品色欧美| 久久亚洲AV无码精品色午夜| 视频一区精品中文字幕| 久久久久亚洲av无码专区喷水| 亚洲av无码专区在线电影| 色婷婷丁香综合激情|