糖基化是蛋白質(zhì)翻譯后的一種非常重要的修飾過程,在生物學(xué)過程中扮演重要的角色,它能參與免疫防御,病毒復(fù)制,細(xì)胞生長等過程。蛋白質(zhì)的糖基化有N-糖基化、O-糖基化、C-甘露糖糖基化,磷脂酰肌醇(GPI)錨區(qū)4種類型。糖蛋白的蛋白鏈與糖鏈通過共價(jià)鍵相連蛋的位點(diǎn)稱為糖基化位點(diǎn),對(duì)于給定的蛋白質(zhì),表達(dá)宿主細(xì)胞類型的改變,培養(yǎng)介質(zhì)成分的變化,以及生產(chǎn)過程中的發(fā)酵條件都會(huì)使糖基化位點(diǎn)發(fā)生改變[1]。O-糖基化作為生物體內(nèi)重要的生物過程,迄今為止還未發(fā)現(xiàn)固定的模式,它的糖基化位點(diǎn)的確切序列片段還不清楚,但通常存在于糖蛋白分子表面絲氨酸(Serine,S)或蘇氨酸(Threonine,T)比較集中且周圍常有脯氨酸(Proline,P)的序列片段中[2-3]。
雖然O-糖基化的研究還沒有確定性的結(jié)果,但是許多基于實(shí)驗(yàn)和計(jì)算的方法已經(jīng)被應(yīng)用。Wilson等發(fā)現(xiàn)糖基化位點(diǎn)中脯氨酸在位置-1和+3有一個(gè)較高的頻率[4],Elhammer等發(fā)現(xiàn)脯氨酸,絲氨酸和蘇氨酸在糖基化位點(diǎn)的所有位點(diǎn)都有很高的頻率[5]。
本文采用稀疏編碼方案,對(duì)BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及其訓(xùn)練算法進(jìn)行研究的基礎(chǔ)上,提出了一種改進(jìn)傳統(tǒng)BP算法缺陷的動(dòng)量梯度下降算法,運(yùn)用BP神經(jīng)網(wǎng)絡(luò)對(duì)O-糖基化位點(diǎn)進(jìn)行預(yù)測和分析。實(shí)驗(yàn)表明蛋白質(zhì)序列特征向量的維數(shù)(蛋白質(zhì)編碼序列的長度)是影響預(yù)測性能的最主要因素。
本研究的實(shí)驗(yàn)數(shù)據(jù)來源于糖基化數(shù)據(jù)庫Uniport(v8.0)[6]。我們隨機(jī)挑選了哺乳動(dòng)物的99個(gè)蛋白質(zhì)序列用于分析。由于O-糖基化是將糖鏈轉(zhuǎn)移到多肽鏈的絲氨酸、蘇氨酸或羥賴氨酸的羥基的氧原子上,根據(jù)對(duì)S和T的特異性,將蛋白質(zhì)序列分成四類,分別注釋為糖基化的絲氨酸、蘇氨酸稱為positive T 和positive S,沒有這種注釋的稱為negative T 和negative S。我們將所有的positive T 和positive S混合在一起稱為positive set(糖基化位點(diǎn)),而negative T 和negative S稱為negative set(非糖基化位點(diǎn))。從每一類中隨機(jī)選取300個(gè)樣本用于訓(xùn)練,隨機(jī)選取10個(gè)樣本用于測試,實(shí)驗(yàn)樣本數(shù)目如表1所示。
表1 樣本數(shù)
沒有編碼的氨基酸序列不能被神經(jīng)網(wǎng)絡(luò)識(shí)別,預(yù)測前必須對(duì)原始的氨基酸序列進(jìn)行編碼。已經(jīng)研究出許多種氨基酸編碼方案,諸如3字母編碼方案,5字母編碼方案,水療編碼方案等。本文采用稀疏編碼方案,用21位的二進(jìn)制序列表示一個(gè)氨基酸或一個(gè)空位,以區(qū)分20種氨基酸和空位。每一個(gè)被選擇的氨基酸序列被一個(gè)窗口分成若干個(gè)子序列,S或T位于中間。
假設(shè)一個(gè)原始的氨基酸序列窗口大小為Ws,編碼后的序列的長度即為21*(Ws-1)。窗口大小和相應(yīng)的編碼長度如表2所示。可知,隨著窗口Ws的增大,特征向量的維數(shù)D也增大,當(dāng)Ws=51時(shí),D=1050。
表2 窗口大小與編碼長度
糖鏈的生物合成沒有模板可以遵循,同一個(gè)糖基化位點(diǎn)可能存在不同的糖鏈形成所謂的微觀不均勻性。我們計(jì)算氨基酸序列在每一個(gè)位點(diǎn)的直方圖得到位置概率函數(shù)(Positional Probability Functions,PPFS)來表示這種不均勻性。窗口大小Ws=7的糖基化位點(diǎn)和非糖基化位點(diǎn)的PPF如圖1如示。由圖可見,糖基化位點(diǎn)中所有的位點(diǎn)不僅脯氨酸,而且絲氨酸,蘇氨酸和丙胺酸(alanine,A)都有一個(gè)很高的含量;并且糖基化位點(diǎn)中脯氨酸,絲氨酸,蘇氨酸和丙胺酸的含量高于非糖基化位點(diǎn)的含量。我們也計(jì)算脯氨酸,絲氨酸,蘇氨酸和丙胺酸在每一個(gè)位點(diǎn)的PPFS,如圖2-圖5所示。很明顯,糖基化位點(diǎn)中脯氨酸在位置-1和+3相對(duì)于其他的三種氨基酸有一個(gè)較高的含量,此結(jié)果與Wilson的研究結(jié)果一致。
圖1 位置概率函數(shù)(PPFS,Ws =7)
BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)是多層前饋神經(jīng)網(wǎng)絡(luò)最普遍的模型之一,基本結(jié)構(gòu)分為輸入層,隱含層,輸出層三層。BP神經(jīng)網(wǎng)絡(luò)最初使用梯度下降搜索技術(shù),對(duì)網(wǎng)絡(luò)連接權(quán)值進(jìn)行修正,使網(wǎng)絡(luò)實(shí)際輸出與期望輸出之間的均方誤差最小[6,7]。設(shè)第P個(gè)學(xué)習(xí)樣本,期望輸出為dpj,實(shí)際輸出為tpj,網(wǎng)絡(luò)輸出與期望輸出間的誤差為:
如果E值超過誤差許可范圍,則需要調(diào)整網(wǎng)絡(luò)的權(quán)值,權(quán)值修正公式如下:
其中n為學(xué)習(xí)速率。
傳統(tǒng)BP網(wǎng)絡(luò)訓(xùn)練時(shí)間較長,學(xué)習(xí)性能不理想,為了提高檢測的性能和速度,本研究運(yùn)用動(dòng)量梯度下降反向傳播算法,綜合運(yùn)用本次訓(xùn)練和上一次訓(xùn)練權(quán)值的改變修正權(quán)值,以平滑訓(xùn)練收斂曲線的震蕩,提高網(wǎng)絡(luò)的收斂性能。
第K次訓(xùn)練的權(quán)值公式為:
其中D(k)表示k時(shí)刻的負(fù)梯度,η為學(xué)習(xí)速度,α∈[0,1]是動(dòng)量因子。
此方法所加入的動(dòng)量項(xiàng)實(shí)質(zhì)上相當(dāng)于阻尼項(xiàng),它能減小學(xué)習(xí)過程的振蕩趨勢以改善收斂性。
糖基化位點(diǎn)的預(yù)測在本研究中是一個(gè)二分類問題,我們建立一個(gè)三層的BP神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測。根據(jù)不同的窗口大小,輸入到網(wǎng)絡(luò)的是不同編碼長度的蛋白質(zhì)序列,輸出為與此序列相關(guān)的糖基化信息。輸入層神經(jīng)元的數(shù)目等于特征向量維數(shù),隱含層神經(jīng)元的數(shù)目根據(jù)實(shí)驗(yàn)確定,隱含層和輸出層的轉(zhuǎn)換函數(shù)是sigmoid型的激活函數(shù)。
實(shí)驗(yàn)中從糖基化位點(diǎn)和非糖基化位點(diǎn)中隨機(jī)選取300個(gè)樣本序列用于訓(xùn)練,選取10個(gè)測試樣本用于測試。如果蛋白質(zhì)序列長度太短,對(duì)于同一個(gè)序列有可能出現(xiàn)糖基化或非糖基化的情況,即使對(duì)于訓(xùn)練數(shù)據(jù),網(wǎng)絡(luò)也不能有效地學(xué)習(xí)。因此,我們?nèi)s=7,11,21,31,41,51進(jìn)行實(shí)驗(yàn),訓(xùn)練時(shí)間和預(yù)測性能如圖6和圖7所示。由實(shí)驗(yàn)結(jié)果可知,當(dāng)Ws增大時(shí),特征向量的維數(shù)隨著增大,預(yù)測時(shí)間延長,預(yù)測性能提高。
圖2 脯氨酸的PPF
圖3 蘇氨酸的PPF
圖4 丙胺酸的PPF
圖5 絲氨酸的PPF
圖6 預(yù)測性能
圖7 訓(xùn)練時(shí)間
本文采用稀疏編碼方案,對(duì)BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及其訓(xùn)練算法進(jìn)行研究的基礎(chǔ)上,提出了一種改進(jìn)傳統(tǒng)BP學(xué)習(xí)算法缺陷的動(dòng)量梯度下降算法,運(yùn)用改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)對(duì)O-糖基化位點(diǎn)進(jìn)行預(yù)測和分析。分析表明,預(yù)測性能與蛋白質(zhì)序列特征向量的維數(shù)(蛋白質(zhì)編碼序列的長度)直接相關(guān)。當(dāng)窗口的大小控制在一定范圍時(shí)訓(xùn)練速度快,誤差較小,具有很好的預(yù)測性能,隨著窗口大小的增大,網(wǎng)絡(luò)變得越來越復(fù)雜,訓(xùn)練時(shí)間延長,有可能出現(xiàn)局部優(yōu)化或過擬合的傾向。因此,我們下一步的目標(biāo)一方面是探索其他的編碼方式,另一方面是對(duì)蛋白質(zhì)序列進(jìn)行特征提取,降低神經(jīng)網(wǎng)絡(luò)的復(fù)雜度,更好地發(fā)揮神經(jīng)網(wǎng)絡(luò)的預(yù)測性能。
[1]Hart,G.W.Glycosylation,Curr.Opin [J].Cell Bio,1992,(17):1017-1023.
[2]Hansen,J.E.,Lund,O.,Engelbrecht,J,et al.specificity patterns of UDP-GaINAc:polypeptide N-acetylgalactosam inyltransferase[J],Biochem.1995,(308):801-813.
[3]Julenius,K.,Molgaard,A.,Gupta,R.,et al.Prediction, conservation analysis and structural characterization of mammalian mucin-type O-glycosylation sites [J],Glycobiology.2004,(15):153-164.
[4]Wilson,I.B.H.,Gavel,Y.,and Heijne,G.:Amino acid distributions around O-linked glycosylation sites,Biochem.J.,1991,(275):529-534.
[5]Elhammer,A.P.,Poorman,R.A.,Brown,E.et al.The specificity of UDP-Ga1NAc:polypeptide N-acetylgalactosaminyltrans-ferase as inferred from a database of in vivo substrates and from the in vitro glycosylation of proteins and peptides [J],Biol.Chem.1998,(268):10029-10038.
[6]http://www.ebi.uniprot.
[7]Bishop,C.M.:Neural Network for Pattern Recognition [M].Oxford.Oxford University Press,1995.
[8]閻平凡,張長水.人工神經(jīng)網(wǎng)絡(luò)與模擬進(jìn)化計(jì)算[M].北京清華大學(xué)出版社,2004.