亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        使用離散增量結(jié)合支持向量機(jī)方法預(yù)測蛋白酶的類型

        2021-05-13 08:36:56
        農(nóng)業(yè)與技術(shù) 2021年8期
        關(guān)鍵詞:增量蛋白酶組分

        王 婷

        (長治職業(yè)技術(shù)學(xué)院,山西 長治 046000)

        本文使用chou和shen相同的數(shù)據(jù)庫[3],從蛋白酶的一級序列出發(fā),以氨基酸組分,氨基酸二肽組分和親疏水三肽組分為參數(shù),采用離散增量結(jié)合支持向量機(jī)(ID-SVM)的方法對蛋白酶的類型進(jìn)行預(yù)測,獲得了較好的預(yù)測效果。

        1 材料和方法

        1.1 數(shù)據(jù)來源

        本文選取了chou和shen創(chuàng)建的蛋白酶數(shù)據(jù)庫[4](http://merops.sanger.ac.uk/(version 8.1,released on 05-May-2008))。此數(shù)據(jù)庫的特點:序列同源性小于25%;序列長度不小于50個氨基酸;去除所有含有未知殘基的序列?;谝陨蠘?biāo)準(zhǔn),最終得到3051個蛋白酶序列,可以分為6個類型:258個絲氨酸蛋白酶(aspartic)序列;589個蘇氨酸蛋白酶(cysteine)序列;39個半胱氨酸蛋白酶(glutamic)序列;1040個天冬氨酸蛋白酶(metallo)序列;1063個金屬蛋白酶(serine)序列;62個谷氨酸蛋白酶(threonine)序列。本文以這6類蛋白酶的一級結(jié)構(gòu)為研究對象。

        1.2 特征參數(shù)

        1.2.1 氨基酸n肽組分

        肽是構(gòu)成蛋白質(zhì)的結(jié)構(gòu)片段,也是蛋白質(zhì)發(fā)揮作用的活性基礎(chǔ)部分。當(dāng)n=1時,氨基酸n肽組分就退化為氨基酸組分,即20種氨基酸出現(xiàn)的頻數(shù),其表達(dá)相對簡單,但丟失了各氨基酸間的關(guān)聯(lián)信息。當(dāng)n=2時定義為二肽組分,即400種氨基酸二聯(lián)體出現(xiàn)的頻數(shù),此時加入了氨基酸間的排列次序和關(guān)聯(lián)信息[5]。以此類推,n個氨基酸縮合成的n聯(lián)體就稱為n肽組分。

        1.2.2 氨基酸序列的親疏水性分布

        蛋白質(zhì)是由20種不同的氨基酸組成的生物大分子,蛋白質(zhì)分子中的氨基酸殘基靠酰胺鍵連接,形成含多達(dá)幾百個氨基酸殘基的多肽鏈,不同類型的氨基酸所包含的側(cè)鏈結(jié)構(gòu)和性質(zhì)也各不相同,因此類型不同的氨基酸具有不同的物理化學(xué)性質(zhì)。大量實驗證實,蛋白質(zhì)序列中氨基酸的物理化學(xué)性質(zhì)也是影響蛋白質(zhì)結(jié)構(gòu)和功能的重要因素,尤其是分子結(jié)構(gòu)中的親疏水性分布的特征。

        本文選取了氨基酸的親疏水性分布作為描述氨基酸序列的一個信息參數(shù)。根據(jù)Li F M等、Chen Y L等、Pánek J等的方法對20種氨基酸進(jìn)行分類,按照單個氨基酸親疏水性分布的不同,將20種氨基酸分為以下6類:強(qiáng)親水性類、強(qiáng)疏水性類、弱親水或弱疏水性類、脯氨酸、甘氨酸、半胱氨酸。具體分類如表1所示。

        表1 氨基酸的親疏水特征分類

        1.3 預(yù)測方法

        1.3.1 離散增量算法(increment of diversity, ID)

        云計算是一種利用大規(guī)模低成本運(yùn)算單元通過IP網(wǎng)絡(luò)相連而組成的運(yùn)算系統(tǒng),用以提供各種計算和存儲服務(wù)。由于具有高性能、低成本、可平滑擴(kuò)展等優(yōu)勢,云計算為IT技術(shù)發(fā)展提供了新的技術(shù)手段和業(yè)務(wù)模式,不僅是企業(yè)降低建設(shè)和維護(hù)成本的重要手段,更為企業(yè)技術(shù)、業(yè)務(wù)和管理創(chuàng)新帶來了新的契機(jī)。

        離散增量算法是一種公認(rèn)的較好模式識別分類器。此算法近年來已成功應(yīng)用于蛋白質(zhì)亞細(xì)胞定位[9]、蛋白質(zhì)折疊子的結(jié)構(gòu)類型[10]及蛋白質(zhì)超二級結(jié)構(gòu)的識別[11]等工作。

        對離散量給出如下定義,對于由s維信息符號構(gòu)成的狀態(tài)空間X,這里用mi表示第i個狀態(tài)出現(xiàn)的個數(shù),其離散源X{m1,m2,…,ms}中的離散量:

        2個同為s維狀態(tài)空間的離散源X:{n1,n2,…,ns}和Y:{m1,m2,…,ms},二者離散量:

        混合離散源X+Y(n1+m1,n2+m2,…,ns+ms)的離散量:

        離散源X與Y的離散增量定義:

        ID(X,Y)=D(X+Y)-D(X)-D(Y)

        ID(X,Y)值用于比較2個離散源的相似性程度。ID(X,Y)值越小,表明2個離散源越相似;反之ID(X,Y)值越大,表明2個離散源的差異越大。

        1.3.2 支持向量機(jī)算法(support vector machine, SVM)

        支持向量機(jī)算法是由Vapnik等人于1995年提出的,具有相對優(yōu)良的性能指標(biāo)。此方法是建立在統(tǒng)計學(xué)理論基礎(chǔ)上的機(jī)器學(xué)習(xí)方法。通過學(xué)習(xí)算法,SVM可以自動找出那些對分類有較好區(qū)分能力的支持向量,由此構(gòu)造出的分類器可以最大化類與類的間隔,因此有較好的適應(yīng)能力和較高的分辨率。該方法只需由各類域的邊界樣本的類別來決定最后的分類結(jié)果[12]。目前支持向量機(jī)算法在亞細(xì)胞定位[13,14]、蛋白質(zhì)結(jié)構(gòu)[15]和蛋白質(zhì)相互作用[16]等方面都有廣泛應(yīng)用,其計算結(jié)果已經(jīng)遠(yuǎn)遠(yuǎn)超過了各種傳統(tǒng)的學(xué)習(xí)算法。支持向量機(jī)算法已經(jīng)被很多學(xué)者編譯為程序加以應(yīng)用,這里使用的是由Chang和Lin聯(lián)合開發(fā)的libsvm程序包,可以從網(wǎng)站(http://www.csie.ntu. edu.tw/~cjlin/)免費(fèi)下載獲得。

        1.3.3 離散增量結(jié)合支持向量機(jī)算法(ID-SVM)

        如果直接將從一級蛋白質(zhì)序列中提取到的特征參數(shù),輸入支持向量機(jī)算法中,那么輸入向量的維數(shù)就會非常大,勢必造成維數(shù)災(zāi)難,使得支持向量機(jī)算法的優(yōu)越性大打折扣。為了解決這一問題,提出了離散增量結(jié)合支持向量機(jī)算法(ID-SVM):將蛋白質(zhì)序列中提取到的特征參數(shù)輸入離散增量算法,將得到的離散增量值作為特征參數(shù)輸入支持向量機(jī)中進(jìn)行分類預(yù)測。這樣做可以很好地降低支持向量機(jī)的輸入向量維數(shù),避免SVM過訓(xùn)練。

        2 結(jié)果與討論

        本文選取了20個氨基酸組分,400個氨基酸二肽組分和216個親疏水三肽組分作為離散源參數(shù)。每組參數(shù)得到的離散增量值均可以構(gòu)成一個6維向量;再將這3組離散增量值組合起來,構(gòu)成一個3×6=18維的特征向量輸入支持向量機(jī)中進(jìn)行分類預(yù)測。本文采用jacknife檢驗方法對蛋白酶的類型進(jìn)行預(yù)測,其結(jié)果如表2所示。

        表2 基于ID-SVM方法在Jackknife檢驗下6種類型蛋白酶的預(yù)測結(jié)果

        由表2可以看出,Jacknife檢驗方法的總體預(yù)測成功率為82.49%。相對而言,對第二類蘇氨酸蛋白酶(cysteine)和第五類金屬蛋白酶(serine)的預(yù)測效果更好一些,分別達(dá)到了94.74%和91.06%,而對第六類谷氨酸蛋白酶(threonine)的預(yù)測效果稍差。表明蛋白質(zhì)序列數(shù)目越多的類,預(yù)測成功率可能會更高。如果能夠進(jìn)一步提取出更多更好的序列特征信息,預(yù)測結(jié)果肯定會提升。

        3 結(jié)語

        本文使用離散增量結(jié)合支持向量機(jī)方法預(yù)測蛋白酶的類型,能夠獲得較好的預(yù)測結(jié)果,有以下2個原因:離散增量算法可以有效降低參數(shù)向量的維數(shù),簡化計算過程;支持向量機(jī)算法能夠很好的融合各種有益序列信息,并通過調(diào)節(jié)計算參數(shù)得到最佳的預(yù)測結(jié)果。

        猜你喜歡
        增量蛋白酶組分
        提質(zhì)和增量之間的“辯證”
        組分分發(fā)管理系統(tǒng)在天然氣計量的應(yīng)用
        一種難溶難熔未知組分板材的定性分析
        “價增量減”型應(yīng)用題點撥
        思鄉(xiāng)與蛋白酶
        文苑(2018年22期)2018-11-19 02:54:30
        黑順片不同組分對正常小鼠的急性毒性
        中成藥(2018年8期)2018-08-29 01:28:26
        金雀花中黃酮苷類組分鑒定及2種成分測定
        中成藥(2018年2期)2018-05-09 07:20:09
        多胚蛋白酶 高效養(yǎng)畜禽
        基于均衡增量近鄰查詢的位置隱私保護(hù)方法
        IgA蛋白酶在IgA腎病治療中的潛在價值
        国产优质av一区二区三区| 国产亚洲精品久久久久久久久动漫| 2021国产成人精品国产| 青青青伊人色综合久久| 青青草成人在线播放视频| 狠狠噜狠狠狠狠丁香五月 | 色二av手机版在线| 国产91精品一区二区麻豆亚洲| 浪货趴办公桌~h揉秘书电影 | 九九热在线视频观看这里只有精品| 在线a人片免费观看高清| 日本人妻97中文字幕| 精品久久人妻av中文字幕| 婷婷亚洲综合五月天小说| 亚洲女同同性少妇熟女| 日本黑人乱偷人妻在线播放| 亚洲国产av精品一区二区蜜芽| 国产精品亚洲欧美云霸高清| 日本黄色一区二区三区视频| 国产精品无套一区二区久久| 国产亚洲欧美精品久久久| 国产av成人精品播放| 亚洲一区二区三区厕所偷拍| 人妻无码第一区二区三区| 久久综合久久鬼色| 久久久久成人精品免费播放网站| 我揉搓少妇好久没做高潮| 正在播放强揉爆乳女教师| 午夜AV地址发布| 亚洲免费人成网站在线观看| 日韩人妻另类中文字幕| 国产精品欧美成人| 国产成人精品cao在线| 亚洲一区二区三区偷拍视频| 国产日产精品一区二区三区四区的特点 | 国产av剧情一区二区三区| 精品深夜av无码一区二区| 国产国拍亚洲精品永久不卡| 亚洲av区一区二区三区| 疯狂做受xxxx国产| 在线观看av中文字幕不卡|