亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于BP神經(jīng)網(wǎng)絡(luò)的O-糖基化位點(diǎn)的預(yù)測(cè)和模式分析

2011-02-19 07:49:00

制造業(yè)自動(dòng)化 2011年2期

0 引言

糖基化是蛋白質(zhì)翻譯后的一種非常重要的修飾過(guò)程，在生物學(xué)過(guò)程中扮演重要的角色，它能參與免疫防御，病毒復(fù)制，細(xì)胞生長(zhǎng)等過(guò)程。蛋白質(zhì)的糖基化有N-糖基化、O-糖基化、C-甘露糖糖基化，磷脂酰肌醇（GPI）錨區(qū)4種類型。糖蛋白的蛋白鏈與糖鏈通過(guò)共價(jià)鍵相連蛋的位點(diǎn)稱為糖基化位點(diǎn)，對(duì)于給定的蛋白質(zhì)，表達(dá)宿主細(xì)胞類型的改變，培養(yǎng)介質(zhì)成分的變化，以及生產(chǎn)過(guò)程中的發(fā)酵條件都會(huì)使糖基化位點(diǎn)發(fā)生改變[1]。O-糖基化作為生物體內(nèi)重要的生物過(guò)程，迄今為止還未發(fā)現(xiàn)固定的模式，它的糖基化位點(diǎn)的確切序列片段還不清楚，但通常存在于糖蛋白分子表面絲氨酸（Serine，S）或蘇氨酸（Threonine，T）比較集中且周圍常有脯氨酸（Proline，P）的序列片段中[2-3]。

雖然O-糖基化的研究還沒(méi)有確定性的結(jié)果，但是許多基于實(shí)驗(yàn)和計(jì)算的方法已經(jīng)被應(yīng)用。Wilson等發(fā)現(xiàn)糖基化位點(diǎn)中脯氨酸在位置－1和＋3有一個(gè)較高的頻率[4]，Elhammer等發(fā)現(xiàn)脯氨酸，絲氨酸和蘇氨酸在糖基化位點(diǎn)的所有位點(diǎn)都有很高的頻率[5]。

本文采用稀疏編碼方案，對(duì)BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及其訓(xùn)練算法進(jìn)行研究的基礎(chǔ)上，提出了一種改進(jìn)傳統(tǒng)BP算法缺陷的動(dòng)量梯度下降算法，運(yùn)用BP神經(jīng)網(wǎng)絡(luò)對(duì)O-糖基化位點(diǎn)進(jìn)行預(yù)測(cè)和分析。實(shí)驗(yàn)表明蛋白質(zhì)序列特征向量的維數(shù)（蛋白質(zhì)編碼序列的長(zhǎng)度）是影響預(yù)測(cè)性能的最主要因素。

1 蛋白質(zhì)序列和稀疏編碼

本研究的實(shí)驗(yàn)數(shù)據(jù)來(lái)源于糖基化數(shù)據(jù)庫(kù)Uniport（v8.0）[6]。我們隨機(jī)挑選了哺乳動(dòng)物的99個(gè)蛋白質(zhì)序列用于分析。由于O-糖基化是將糖鏈轉(zhuǎn)移到多肽鏈的絲氨酸、蘇氨酸或羥賴氨酸的羥基的氧原子上，根據(jù)對(duì)S和T的特異性，將蛋白質(zhì)序列分成四類，分別注釋為糖基化的絲氨酸、蘇氨酸稱為positive T 和positive S，沒(méi)有這種注釋的稱為negative T 和negative S。我們將所有的positive T 和positive S混合在一起稱為positive set（糖基化位點(diǎn)），而negative T 和negative S稱為negative set（非糖基化位點(diǎn)）。從每一類中隨機(jī)選取300個(gè)樣本用于訓(xùn)練，隨機(jī)選取10個(gè)樣本用于測(cè)試，實(shí)驗(yàn)樣本數(shù)目如表1所示。

表1 樣本數(shù)

沒(méi)有編碼的氨基酸序列不能被神經(jīng)網(wǎng)絡(luò)識(shí)別，預(yù)測(cè)前必須對(duì)原始的氨基酸序列進(jìn)行編碼。已經(jīng)研究出許多種氨基酸編碼方案，諸如3字母編碼方案，5字母編碼方案，水療編碼方案等。本文采用稀疏編碼方案，用21位的二進(jìn)制序列表示一個(gè)氨基酸或一個(gè)空位，以區(qū)分20種氨基酸和空位。每一個(gè)被選擇的氨基酸序列被一個(gè)窗口分成若干個(gè)子序列，S或T位于中間。

假設(shè)一個(gè)原始的氨基酸序列窗口大小為Ws，編碼后的序列的長(zhǎng)度即為21*（Ws－1）。窗口大小和相應(yīng)的編碼長(zhǎng)度如表2所示?？芍S著窗口Ws的增大，特征向量的維數(shù)D也增大，當(dāng)Ws＝51時(shí)，D＝1050。

表2 窗口大小與編碼長(zhǎng)度

2 位置概率分布和模式分析

糖鏈的生物合成沒(méi)有模板可以遵循，同一個(gè)糖基化位點(diǎn)可能存在不同的糖鏈形成所謂的微觀不均勻性。我們計(jì)算氨基酸序列在每一個(gè)位點(diǎn)的直方圖得到位置概率函數(shù)（Positional Probability Functions，PPFS）來(lái)表示這種不均勻性。窗口大小Ws＝7的糖基化位點(diǎn)和非糖基化位點(diǎn)的PPF如圖1如示。由圖可見(jiàn)，糖基化位點(diǎn)中所有的位點(diǎn)不僅脯氨酸，而且絲氨酸，蘇氨酸和丙胺酸（alanine，A）都有一個(gè)很高的含量；并且糖基化位點(diǎn)中脯氨酸，絲氨酸，蘇氨酸和丙胺酸的含量高于非糖基化位點(diǎn)的含量。我們也計(jì)算脯氨酸，絲氨酸,蘇氨酸和丙胺酸在每一個(gè)位點(diǎn)的PPFS，如圖2－圖5所示。很明顯，糖基化位點(diǎn)中脯氨酸在位置－1和＋3相對(duì)于其他的三種氨基酸有一個(gè)較高的含量，此結(jié)果與Wilson的研究結(jié)果一致。

圖1 位置概率函數(shù)（PPFS，Ws ＝7）

3 BP算法的改進(jìn)

BP（Back Propagation）神經(jīng)網(wǎng)絡(luò)是多層前饋神經(jīng)網(wǎng)絡(luò)最普遍的模型之一，基本結(jié)構(gòu)分為輸入層，隱含層，輸出層三層。BP神經(jīng)網(wǎng)絡(luò)最初使用梯度下降搜索技術(shù)，對(duì)網(wǎng)絡(luò)連接權(quán)值進(jìn)行修正，使網(wǎng)絡(luò)實(shí)際輸出與期望輸出之間的均方誤差最小[6,7]。設(shè)第P個(gè)學(xué)習(xí)樣本，期望輸出為dpj，實(shí)際輸出為tpj，網(wǎng)絡(luò)輸出與期望輸出間的誤差為：

如果E值超過(guò)誤差許可范圍，則需要調(diào)整網(wǎng)絡(luò)的權(quán)值,權(quán)值修正公式如下：

其中n為學(xué)習(xí)速率。

傳統(tǒng)BP網(wǎng)絡(luò)訓(xùn)練時(shí)間較長(zhǎng)，學(xué)習(xí)性能不理想，為了提高檢測(cè)的性能和速度,本研究運(yùn)用動(dòng)量梯度下降反向傳播算法，綜合運(yùn)用本次訓(xùn)練和上一次訓(xùn)練權(quán)值的改變修正權(quán)值,以平滑訓(xùn)練收斂曲線的震蕩，提高網(wǎng)絡(luò)的收斂性能。

第K次訓(xùn)練的權(quán)值公式為：

其中D（k）表示k時(shí)刻的負(fù)梯度，η為學(xué)習(xí)速度，α∈[0，1]是動(dòng)量因子。

此方法所加入的動(dòng)量項(xiàng)實(shí)質(zhì)上相當(dāng)于阻尼項(xiàng)，它能減小學(xué)習(xí)過(guò)程的振蕩趨勢(shì)以改善收斂性。

4 預(yù)測(cè)和校驗(yàn)

糖基化位點(diǎn)的預(yù)測(cè)在本研究中是一個(gè)二分類問(wèn)題，我們建立一個(gè)三層的BP神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)。根據(jù)不同的窗口大小，輸入到網(wǎng)絡(luò)的是不同編碼長(zhǎng)度的蛋白質(zhì)序列，輸出為與此序列相關(guān)的糖基化信息。輸入層神經(jīng)元的數(shù)目等于特征向量維數(shù)，隱含層神經(jīng)元的數(shù)目根據(jù)實(shí)驗(yàn)確定，隱含層和輸出層的轉(zhuǎn)換函數(shù)是sigmoid型的激活函數(shù)。

實(shí)驗(yàn)中從糖基化位點(diǎn)和非糖基化位點(diǎn)中隨機(jī)選取300個(gè)樣本序列用于訓(xùn)練，選取10個(gè)測(cè)試樣本用于測(cè)試。如果蛋白質(zhì)序列長(zhǎng)度太短，對(duì)于同一個(gè)序列有可能出現(xiàn)糖基化或非糖基化的情況，即使對(duì)于訓(xùn)練數(shù)據(jù)，網(wǎng)絡(luò)也不能有效地學(xué)習(xí)。因此，我們?nèi)s＝7，11，21，31，41，51進(jìn)行實(shí)驗(yàn)，訓(xùn)練時(shí)間和預(yù)測(cè)性能如圖6和圖7所示。由實(shí)驗(yàn)結(jié)果可知，當(dāng)Ws增大時(shí)，特征向量的維數(shù)隨著增大，預(yù)測(cè)時(shí)間延長(zhǎng)，預(yù)測(cè)性能提高。

圖2 脯氨酸的PPF

圖3 蘇氨酸的PPF

圖4 丙胺酸的PPF

圖5 絲氨酸的PPF

圖6 預(yù)測(cè)性能

圖7 訓(xùn)練時(shí)間

5 結(jié)論

本文采用稀疏編碼方案，對(duì)BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及其訓(xùn)練算法進(jìn)行研究的基礎(chǔ)上，提出了一種改進(jìn)傳統(tǒng)BP學(xué)習(xí)算法缺陷的動(dòng)量梯度下降算法，運(yùn)用改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)對(duì)O-糖基化位點(diǎn)進(jìn)行預(yù)測(cè)和分析。分析表明，預(yù)測(cè)性能與蛋白質(zhì)序列特征向量的維數(shù)（蛋白質(zhì)編碼序列的長(zhǎng)度）直接相關(guān)。當(dāng)窗口的大小控制在一定范圍時(shí)訓(xùn)練速度快,誤差較小,具有很好的預(yù)測(cè)性能，隨著窗口大小的增大，網(wǎng)絡(luò)變得越來(lái)越復(fù)雜，訓(xùn)練時(shí)間延長(zhǎng)，有可能出現(xiàn)局部?jī)?yōu)化或過(guò)擬合的傾向。因此，我們下一步的目標(biāo)一方面是探索其他的編碼方式，另一方面是對(duì)蛋白質(zhì)序列進(jìn)行特征提取，降低神經(jīng)網(wǎng)絡(luò)的復(fù)雜度，更好地發(fā)揮神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)性能。

[1]Hart，G.W.Glycosylation，Curr.Opin [J].Cell Bio，1992,（17）：1017-1023.

[2]Hansen，J.E.，Lund，O.，Engelbrecht，J，et al.specificity patterns of UDP-GaINAc：polypeptide N-acetylgalactosam inyltransferase[J],Biochem.1995,（308）：801-813.

[3]Julenius，K.，Molgaard，A.，Gupta，R.，et al.Prediction, conservation analysis and structural characterization of mammalian mucin-type O-glycosylation sites [J]，Glycobiology.2004,（15）：153-164.

[4]Wilson,I.B.H.，Gavel,Y.，and Heijne,G.：Amino acid distributions around O-linked glycosylation sites，Biochem.J.，1991,（275）：529-534.

[5]Elhammer，A.P.，Poorman，R.A.，Brown，E.et al.The specificity of UDP-Ga1NAc：polypeptide N-acetylgalactosaminyltrans-ferase as inferred from a database of in vivo substrates and from the in vitro glycosylation of proteins and peptides [J]，Biol.Chem.1998,（268）：10029-10038.

[6]http://www.ebi.uniprot.

[7]Bishop，C.M.：Neural Network for Pattern Recognition [M].Oxford.Oxford University Press，1995.

[8]閻平凡，張長(zhǎng)水.人工神經(jīng)網(wǎng)絡(luò)與模擬進(jìn)化計(jì)算[M].北京清華大學(xué)出版社，2004.

制造業(yè)自動(dòng)化2011年2期

制造業(yè)自動(dòng)化的其它文章: 數(shù)控銑床計(jì)算機(jī)模塊化工業(yè)設(shè)計(jì)研究; 基于DES和RSA加密算法的數(shù)據(jù)安全傳輸技術(shù)的研究; 計(jì)算機(jī)網(wǎng)絡(luò)聯(lián)動(dòng)安全策略及系統(tǒng)架構(gòu); 汽車曲面品質(zhì)分析及光順優(yōu)化方法研究; 某企業(yè)網(wǎng)全局網(wǎng)絡(luò)安全體系解決方案; 基礎(chǔ)交通信息采集技術(shù)的研究