亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BP神經(jīng)網(wǎng)絡(luò)的O-糖基化位點(diǎn)的預(yù)測和模式分析

        2011-02-19 07:49:00
        制造業(yè)自動(dòng)化 2011年2期
        關(guān)鍵詞:編碼方案蘇氨酸絲氨酸

        0 引言

        糖基化是蛋白質(zhì)翻譯后的一種非常重要的修飾過程,在生物學(xué)過程中扮演重要的角色,它能參與免疫防御,病毒復(fù)制,細(xì)胞生長等過程。蛋白質(zhì)的糖基化有N-糖基化、O-糖基化、C-甘露糖糖基化,磷脂酰肌醇(GPI)錨區(qū)4種類型。糖蛋白的蛋白鏈與糖鏈通過共價(jià)鍵相連蛋的位點(diǎn)稱為糖基化位點(diǎn),對(duì)于給定的蛋白質(zhì),表達(dá)宿主細(xì)胞類型的改變,培養(yǎng)介質(zhì)成分的變化,以及生產(chǎn)過程中的發(fā)酵條件都會(huì)使糖基化位點(diǎn)發(fā)生改變[1]。O-糖基化作為生物體內(nèi)重要的生物過程,迄今為止還未發(fā)現(xiàn)固定的模式,它的糖基化位點(diǎn)的確切序列片段還不清楚,但通常存在于糖蛋白分子表面絲氨酸(Serine,S)或蘇氨酸(Threonine,T)比較集中且周圍常有脯氨酸(Proline,P)的序列片段中[2-3]。

        雖然O-糖基化的研究還沒有確定性的結(jié)果,但是許多基于實(shí)驗(yàn)和計(jì)算的方法已經(jīng)被應(yīng)用。Wilson等發(fā)現(xiàn)糖基化位點(diǎn)中脯氨酸在位置-1和+3有一個(gè)較高的頻率[4],Elhammer等發(fā)現(xiàn)脯氨酸,絲氨酸和蘇氨酸在糖基化位點(diǎn)的所有位點(diǎn)都有很高的頻率[5]。

        本文采用稀疏編碼方案,對(duì)BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及其訓(xùn)練算法進(jìn)行研究的基礎(chǔ)上,提出了一種改進(jìn)傳統(tǒng)BP算法缺陷的動(dòng)量梯度下降算法,運(yùn)用BP神經(jīng)網(wǎng)絡(luò)對(duì)O-糖基化位點(diǎn)進(jìn)行預(yù)測和分析。實(shí)驗(yàn)表明蛋白質(zhì)序列特征向量的維數(shù)(蛋白質(zhì)編碼序列的長度)是影響預(yù)測性能的最主要因素。

        1 蛋白質(zhì)序列和稀疏編碼

        本研究的實(shí)驗(yàn)數(shù)據(jù)來源于糖基化數(shù)據(jù)庫Uniport(v8.0)[6]。我們隨機(jī)挑選了哺乳動(dòng)物的99個(gè)蛋白質(zhì)序列用于分析。由于O-糖基化是將糖鏈轉(zhuǎn)移到多肽鏈的絲氨酸、蘇氨酸或羥賴氨酸的羥基的氧原子上,根據(jù)對(duì)S和T的特異性,將蛋白質(zhì)序列分成四類,分別注釋為糖基化的絲氨酸、蘇氨酸稱為positive T 和positive S,沒有這種注釋的稱為negative T 和negative S。我們將所有的positive T 和positive S混合在一起稱為positive set(糖基化位點(diǎn)),而negative T 和negative S稱為negative set(非糖基化位點(diǎn))。從每一類中隨機(jī)選取300個(gè)樣本用于訓(xùn)練,隨機(jī)選取10個(gè)樣本用于測試,實(shí)驗(yàn)樣本數(shù)目如表1所示。

        表1 樣本數(shù)

        沒有編碼的氨基酸序列不能被神經(jīng)網(wǎng)絡(luò)識(shí)別,預(yù)測前必須對(duì)原始的氨基酸序列進(jìn)行編碼。已經(jīng)研究出許多種氨基酸編碼方案,諸如3字母編碼方案,5字母編碼方案,水療編碼方案等。本文采用稀疏編碼方案,用21位的二進(jìn)制序列表示一個(gè)氨基酸或一個(gè)空位,以區(qū)分20種氨基酸和空位。每一個(gè)被選擇的氨基酸序列被一個(gè)窗口分成若干個(gè)子序列,S或T位于中間。

        假設(shè)一個(gè)原始的氨基酸序列窗口大小為Ws,編碼后的序列的長度即為21*(Ws-1)。窗口大小和相應(yīng)的編碼長度如表2所示。可知,隨著窗口Ws的增大,特征向量的維數(shù)D也增大,當(dāng)Ws=51時(shí),D=1050。

        表2 窗口大小與編碼長度

        2 位置概率分布和模式分析

        糖鏈的生物合成沒有模板可以遵循,同一個(gè)糖基化位點(diǎn)可能存在不同的糖鏈形成所謂的微觀不均勻性。我們計(jì)算氨基酸序列在每一個(gè)位點(diǎn)的直方圖得到位置概率函數(shù)(Positional Probability Functions,PPFS)來表示這種不均勻性。窗口大小Ws=7的糖基化位點(diǎn)和非糖基化位點(diǎn)的PPF如圖1如示。由圖可見,糖基化位點(diǎn)中所有的位點(diǎn)不僅脯氨酸,而且絲氨酸,蘇氨酸和丙胺酸(alanine,A)都有一個(gè)很高的含量;并且糖基化位點(diǎn)中脯氨酸,絲氨酸,蘇氨酸和丙胺酸的含量高于非糖基化位點(diǎn)的含量。我們也計(jì)算脯氨酸,絲氨酸,蘇氨酸和丙胺酸在每一個(gè)位點(diǎn)的PPFS,如圖2-圖5所示。很明顯,糖基化位點(diǎn)中脯氨酸在位置-1和+3相對(duì)于其他的三種氨基酸有一個(gè)較高的含量,此結(jié)果與Wilson的研究結(jié)果一致。

        圖1 位置概率函數(shù)(PPFS,Ws =7)

        3 BP算法的改進(jìn)

        BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)是多層前饋神經(jīng)網(wǎng)絡(luò)最普遍的模型之一,基本結(jié)構(gòu)分為輸入層,隱含層,輸出層三層。BP神經(jīng)網(wǎng)絡(luò)最初使用梯度下降搜索技術(shù),對(duì)網(wǎng)絡(luò)連接權(quán)值進(jìn)行修正,使網(wǎng)絡(luò)實(shí)際輸出與期望輸出之間的均方誤差最小[6,7]。設(shè)第P個(gè)學(xué)習(xí)樣本,期望輸出為dpj,實(shí)際輸出為tpj,網(wǎng)絡(luò)輸出與期望輸出間的誤差為:

        如果E值超過誤差許可范圍,則需要調(diào)整網(wǎng)絡(luò)的權(quán)值,權(quán)值修正公式如下:

        其中n為學(xué)習(xí)速率。

        傳統(tǒng)BP網(wǎng)絡(luò)訓(xùn)練時(shí)間較長,學(xué)習(xí)性能不理想,為了提高檢測的性能和速度,本研究運(yùn)用動(dòng)量梯度下降反向傳播算法,綜合運(yùn)用本次訓(xùn)練和上一次訓(xùn)練權(quán)值的改變修正權(quán)值,以平滑訓(xùn)練收斂曲線的震蕩,提高網(wǎng)絡(luò)的收斂性能。

        第K次訓(xùn)練的權(quán)值公式為:

        其中D(k)表示k時(shí)刻的負(fù)梯度,η為學(xué)習(xí)速度,α∈[0,1]是動(dòng)量因子。

        此方法所加入的動(dòng)量項(xiàng)實(shí)質(zhì)上相當(dāng)于阻尼項(xiàng),它能減小學(xué)習(xí)過程的振蕩趨勢以改善收斂性。

        4 預(yù)測和校驗(yàn)

        糖基化位點(diǎn)的預(yù)測在本研究中是一個(gè)二分類問題,我們建立一個(gè)三層的BP神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測。根據(jù)不同的窗口大小,輸入到網(wǎng)絡(luò)的是不同編碼長度的蛋白質(zhì)序列,輸出為與此序列相關(guān)的糖基化信息。輸入層神經(jīng)元的數(shù)目等于特征向量維數(shù),隱含層神經(jīng)元的數(shù)目根據(jù)實(shí)驗(yàn)確定,隱含層和輸出層的轉(zhuǎn)換函數(shù)是sigmoid型的激活函數(shù)。

        實(shí)驗(yàn)中從糖基化位點(diǎn)和非糖基化位點(diǎn)中隨機(jī)選取300個(gè)樣本序列用于訓(xùn)練,選取10個(gè)測試樣本用于測試。如果蛋白質(zhì)序列長度太短,對(duì)于同一個(gè)序列有可能出現(xiàn)糖基化或非糖基化的情況,即使對(duì)于訓(xùn)練數(shù)據(jù),網(wǎng)絡(luò)也不能有效地學(xué)習(xí)。因此,我們?nèi)s=7,11,21,31,41,51進(jìn)行實(shí)驗(yàn),訓(xùn)練時(shí)間和預(yù)測性能如圖6和圖7所示。由實(shí)驗(yàn)結(jié)果可知,當(dāng)Ws增大時(shí),特征向量的維數(shù)隨著增大,預(yù)測時(shí)間延長,預(yù)測性能提高。

        圖2 脯氨酸的PPF

        圖3 蘇氨酸的PPF

        圖4 丙胺酸的PPF

        圖5 絲氨酸的PPF

        圖6 預(yù)測性能

        圖7 訓(xùn)練時(shí)間

        5 結(jié)論

        本文采用稀疏編碼方案,對(duì)BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及其訓(xùn)練算法進(jìn)行研究的基礎(chǔ)上,提出了一種改進(jìn)傳統(tǒng)BP學(xué)習(xí)算法缺陷的動(dòng)量梯度下降算法,運(yùn)用改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)對(duì)O-糖基化位點(diǎn)進(jìn)行預(yù)測和分析。分析表明,預(yù)測性能與蛋白質(zhì)序列特征向量的維數(shù)(蛋白質(zhì)編碼序列的長度)直接相關(guān)。當(dāng)窗口的大小控制在一定范圍時(shí)訓(xùn)練速度快,誤差較小,具有很好的預(yù)測性能,隨著窗口大小的增大,網(wǎng)絡(luò)變得越來越復(fù)雜,訓(xùn)練時(shí)間延長,有可能出現(xiàn)局部優(yōu)化或過擬合的傾向。因此,我們下一步的目標(biāo)一方面是探索其他的編碼方式,另一方面是對(duì)蛋白質(zhì)序列進(jìn)行特征提取,降低神經(jīng)網(wǎng)絡(luò)的復(fù)雜度,更好地發(fā)揮神經(jīng)網(wǎng)絡(luò)的預(yù)測性能。

        [1]Hart,G.W.Glycosylation,Curr.Opin [J].Cell Bio,1992,(17):1017-1023.

        [2]Hansen,J.E.,Lund,O.,Engelbrecht,J,et al.specificity patterns of UDP-GaINAc:polypeptide N-acetylgalactosam inyltransferase[J],Biochem.1995,(308):801-813.

        [3]Julenius,K.,Molgaard,A.,Gupta,R.,et al.Prediction, conservation analysis and structural characterization of mammalian mucin-type O-glycosylation sites [J],Glycobiology.2004,(15):153-164.

        [4]Wilson,I.B.H.,Gavel,Y.,and Heijne,G.:Amino acid distributions around O-linked glycosylation sites,Biochem.J.,1991,(275):529-534.

        [5]Elhammer,A.P.,Poorman,R.A.,Brown,E.et al.The specificity of UDP-Ga1NAc:polypeptide N-acetylgalactosaminyltrans-ferase as inferred from a database of in vivo substrates and from the in vitro glycosylation of proteins and peptides [J],Biol.Chem.1998,(268):10029-10038.

        [6]http://www.ebi.uniprot.

        [7]Bishop,C.M.:Neural Network for Pattern Recognition [M].Oxford.Oxford University Press,1995.

        [8]閻平凡,張長水.人工神經(jīng)網(wǎng)絡(luò)與模擬進(jìn)化計(jì)算[M].北京清華大學(xué)出版社,2004.

        猜你喜歡
        編碼方案蘇氨酸絲氨酸
        D-絲氨酸與學(xué)習(xí)記憶關(guān)系的研究進(jìn)展
        D-絲氨酸在抑郁癥中的作用研究進(jìn)展
        基于功能類別和技術(shù)參數(shù)的刀具編碼方案設(shè)計(jì)
        富硒酵母對(duì)長期缺硒和正常大鼠體內(nèi)D-絲氨酸和L-絲氨酸水平的影響
        基于唯一標(biāo)識(shí)的ATP車載設(shè)備編碼方案研究
        基于改進(jìn)粒子群算法的毫米波大規(guī)模MIMO混合預(yù)編碼方案
        蘇氨酸對(duì)動(dòng)物的生物學(xué)作用研究進(jìn)展
        家禽蘇氨酸研究進(jìn)展
        廣東飼料(2016年1期)2016-12-01 03:43:01
        三種預(yù)編碼方案對(duì)OFDM系統(tǒng)峰均比的影響分析
        中國新通信(2015年9期)2015-05-30 16:17:07
        采用閱讀模型確定Cobb肉種雞賴氨酸和蘇氨酸最佳攝入量的研究
        飼料博覽(2015年4期)2015-04-05 10:34:14
        61精品人妻一区二区三区蜜桃| 吃奶摸下的激烈视频| 欧美中文字幕在线| 国产免费的视频一区二区| 中文字幕精品久久天堂一区| 亚洲综合精品一区二区三区| 亚洲最大中文字幕熟女| 在线看片免费人成视频久网下载| 日本成人久久| 一个人的视频免费播放在线观看 | 国产一区二区三精品久久久无广告| 99国产超薄丝袜足j在线播放| 大屁股流白浆一区二区| 日韩精品熟女中文字幕| 三年在线观看免费大全下载| 成年女人A级毛片免| 青青草好吊色在线视频| 国产香港明星裸体xxxx视频| 欧美人与动牲交a欧美精品| 美女视频很黄很a免费国产| 亚洲一区二区蜜桃视频| 高潮内射双龙视频| 尤物yw无码网站进入| av亚洲在线一区二区| 一区在线视频免费播放| 樱桃视频影视在线观看免费| 国产午夜精品福利久久| 国产美女一区三区在线观看| 久久久久88色偷偷| 久久国产精品久久久久久 | 中文字幕av无码一区二区三区电影| 无色码中文字幕一本久道久| 国产熟女内射oooo| 欧美自拍丝袜亚洲| 亚洲码无人客一区二区三区 | 国产尤物自拍视频在线观看| 黑人巨茎大战俄罗斯美女| 欧美亚州乳在线观看| 国产三级在线观看高清| 久久亚洲av无码精品色午夜| 后入内射欧美99二区视频|