田 淇,李耀旺,李 博,2*
(1 中國農(nóng)業(yè)大學食品科學與營養(yǎng)工程學院 北京100083 2 教育部功能乳品重點實驗室 北京100083)
隨著計算機技術(shù)的高速發(fā)展,定量構(gòu)效關(guān)系(Quantitative structure-activity relationship,QSAR)作為1 種經(jīng)濟有效的方法,被廣泛應(yīng)用于各個領(lǐng)域的結(jié)構(gòu)與活性、結(jié)構(gòu)與性質(zhì)關(guān)系的研究中。QSAR 是在化學、物理學、數(shù)學等多門學科的理論支持下,分析小分子化合物的結(jié)構(gòu)特征,并與活性參數(shù)構(gòu)建定量的數(shù)學模型,最終給出新化合物設(shè)計建議。
近年來,已知的活性肽序列急劇增加,并將持續(xù)增長。然而,具有相同生物活性的肽類通常具有不同的氨基酸組成和氨基酸數(shù)量,如苦味肽(Bitter peptides,BT)、ACE 抑制肽(Angiotensin I-converting enzyme inhibitor,ACE)[1]和抗氧化肽等。人乳、羊奶酪乳清、菜籽、核桃等多種蛋白質(zhì)水解得到的抗氧化肽通常由3~16 個氨基酸殘基組成[2-6]。然而,在建立活性肽的定量構(gòu)效關(guān)系模型時,肽的序列結(jié)構(gòu)大多由氨基酸描述符表征,要求所用的數(shù)據(jù)庫中肽段具有相同長度。一方面,等長序列活性肽的數(shù)據(jù)量較少,不足以建立QSAR 模型;另一方面,采用單一長度的多肽數(shù)據(jù)庫建立的QSAR模型,不能預(yù)測其它長度活性肽的生物活性,也難以給出這種活性肽的固有結(jié)構(gòu)特征[7]。急需對肽段長度不一的數(shù)據(jù)庫進行適當處理,使所有氨基酸序列轉(zhuǎn)換為具有相同數(shù)量變量的數(shù)據(jù)。
Andersson 等[8]采用自交叉協(xié)方差(Auto cross covariances,ACCs)法對數(shù)據(jù)進行結(jié)構(gòu)表征,使每個樣本均產(chǎn)生相同數(shù)目的變量,從而使常規(guī)的建模方法得以應(yīng)用。該方法起初用于蛋白質(zhì)、肽和DNA 模式識別領(lǐng)域的研究,于1995年首次應(yīng)用于大腸桿菌中多肽序列與性質(zhì)關(guān)系的研究[9]。此后,ACCs 在生物活性肽領(lǐng)域的應(yīng)用越來越廣泛。Mee 等[10]采用ACCs 技術(shù)對不同長度的肽段進行均勻化。Nystroom 等[11]使用ACCs 技術(shù)研究了α-Melanotropin 類似物。Stecker[12]研究了神經(jīng)連通性對自協(xié)方差和交叉協(xié)方差估計的影響。雖然ACCs法可以描述不同長度的肽序列,但是仍存在一些缺陷,比如難以解釋QSAR 結(jié)果中具體的物理化學意義,因此迫切需要一種新方法來解決這個問題。
本研究提出兩端排序法 (Two-terminal position numbering,TTPN),即分別從氨基酸序列的C端和N 端提取相同數(shù)量氨基酸殘基的信息,使不同長度的序列轉(zhuǎn)化為等長序列,并將不同長度的肽數(shù)據(jù)庫描述為相同的X 矩陣。將疏水、空間和電子性質(zhì)的載體 (Vectors of hydrophobic,steric,and electronic properties,VHSE)、疏水、電子、空間和氫(Hydrophobic,electronic,steric,and hydrogen,HESH)、物理化學性質(zhì)分值(Divided physico-chemical property scores,DPPS)等物理化學意義較為明確,易于解釋,信息量較大的描述符應(yīng)用于3 組肽的QSAR 研究中[13-15]。
本研究以3 個活性肽數(shù)據(jù)庫為材料,重點研究TTPN 相比ACCs 表征方法構(gòu)建QSAR 模型時的有效性及其應(yīng)用范圍。首先對苦味肽、ACE 以及氧自由基吸收能力(Oxygen radical absorption capacity,ORAC)數(shù)據(jù)庫同時使用ACCs 和TTPN 兩種方法進行序列表征處理,建立描述變量矩陣X,活性數(shù)據(jù)矩陣Y。然后,建立QSAR 模型進行偏最小二乘法(Parital least squares,PLS)回歸分析,用于比較這兩種方法的優(yōu)劣。其次,先前苦味肽的構(gòu)效關(guān)系研究顯示,其兩端氨基酸對活性影響較為重要[16],故使用此數(shù)據(jù)庫考察TTPN 法對兩端氨基酸重要且序列長度不一的活性肽的有效性。對于ORAC 數(shù)據(jù)庫,研究結(jié)果認為其中間位置的氨基酸最為重要[17],故用于考察TTPN 法對中間氨基酸重要且序列長度不一的活性肽的有效性。最后,考慮到苦味肽數(shù)量龐大,可以找到充足的等長肽樣本,故按序列長度2~8 分成7 個數(shù)據(jù)庫,使用TTPN 法進行結(jié)構(gòu)表征后建模和統(tǒng)計分析,用于考察TTPN 法對序列相差極大時,不同長度的肽的活性的影響因素異同。
1.1.1 苦味肽數(shù)據(jù)庫 關(guān)于苦味肽的研究已較為成熟,有充足的樣本和明確的影響其活性的結(jié)構(gòu)特征,適用于TTPN 法的驗證。從文獻中共收集到228 條苦味肽[18],其序列長度從1~14。雖然相同長度的肽數(shù)量充足,但主要集中在二肽(76 個)和三肽(52 個)。出于對TTPN 法的有效性及適用范圍的考慮,做如下處理:
1)比較ACCs 與TTPN 法的試驗中,為了使數(shù)據(jù)更具代表性,故從二肽和三肽中分別隨機抽取20 個樣本與其它序列長度的肽共同組成一個新的數(shù)據(jù)庫(表1)。
表1 苦味肽數(shù)據(jù)庫[18]Table 1 BT database[18]
(續(xù)表1)
2)在考察序列兩端的位置對活性影響及TTPN 法的有效性時,逐次將最短序列的樣本從數(shù)據(jù)庫中刪除,共產(chǎn)生6 個數(shù)據(jù)庫,分別是二肽及以上的數(shù)據(jù)庫、三肽及以上的數(shù)據(jù)庫、四肽及以上的數(shù)據(jù)庫、五肽及以上的數(shù)據(jù)庫、六肽及以上的數(shù)據(jù)庫和七肽及以上的數(shù)據(jù)庫。
3)在考察序列長度相同的肽使用TTPN 法進行結(jié)構(gòu)表征對其結(jié)果的影響時,選擇序列長度為2,3,4,5,6,7,8 的肽,分別建立數(shù)據(jù)庫,相應(yīng)的樣本量為76,52,23,12,20,16,11。
1.1.2 ACE 數(shù)據(jù)庫 由于ACE 數(shù)據(jù)穩(wěn)定,一些氨基酸描述符的建立是以ACE 數(shù)據(jù)為驗證的標準,因此建立了ACE 數(shù)據(jù)庫。ACE 抑制肽共有130個[19],序列長度2~8,其中二肽101 個。與苦味肽采取同樣的方法,從二肽中隨機抽取20 個樣本與其它樣本共同組成一個新的數(shù)據(jù)庫(表2),使數(shù)據(jù)更具代表性。
表2 ACE 數(shù)據(jù)庫[19]Table 2 ACE database[19]
1.1.3 ORAC 數(shù)據(jù)庫 建立ORAC 數(shù)據(jù)庫的目的與ACE 數(shù)據(jù)庫相同,在于考察TTPN 法表征肽的可行性和有效性。ORAC 數(shù)據(jù)共26 個[19](表3),從二肽到二十肽,數(shù)據(jù)分布較為均勻。
1.2.1 ACCs 法原理 ACCs 法是依據(jù)方程 (1)和(2) 實現(xiàn)的,式中,p——氨基酸描述符變量的個數(shù);lg——步長值,則生成的ACCs 的變量個數(shù)為lg×p2;j——ACCs 的維數(shù);n——序列中氨基酸的個數(shù);i——氨基酸的位置;z——氨基酸描述符[9]。處理的目的是將長短不同的序列統(tǒng)一為可以用于QSAR 建模的數(shù)據(jù)舉證,如圖1所示。
表3 ORAC 數(shù)據(jù)庫[19]Table 3 ORAC database[19]
圖1 ACCs 技術(shù)所要達到的效果圖[20]Fig.1 Effect of ACCs Technology[20]
1.2.2 TTPN 法原理 從數(shù)據(jù)庫中查找長度最短的肽段,以其氨基酸數(shù)量為基準,分別對每個肽的C 端和N 端取基準數(shù)量的氨基酸序列,組成新的用于表征其結(jié)構(gòu)的序列。例如:在ACE 數(shù)據(jù)庫中,肽的序列長度為2~8,那么就從C 端與N 端分別取2 個氨基酸長度的序列,組成新的用于表征結(jié)構(gòu)的序列。計算方法見公式(3)。
式中,y——肽的活性;i——N 或C 端的氨基酸的位置;j——氨基酸描述符的變量個數(shù);Ni,j——N 端第i 個氨基酸第j 個變量;Ci,j——C端第i 個氨基酸第j 個變量。例如,從N 端第1 個位置的氨基酸被指定為N1,它的3 個z 分數(shù)性質(zhì)被描述為N1,1,N1,2,N1,3。從N 端到第2,3,4 位置的氨基酸殘基分別為N2,N3,N4。同樣地,C 端第1,2,3,4 位氨基酸殘基分別為C1,C2,C3,C4。
1.2.3 PLS 回歸分析 偏最小二乘回歸(Partial least square regression,PLSR) 是目前最流行的回歸分析方法之一,它能有效地解決變量之間的共線性問題。即使樣本數(shù)量小于變量數(shù)量時,也可使用偏最小二乘回歸建立回歸模型[20-21]。
應(yīng)用于研究氨基酸描述矩陣X 與活性數(shù)據(jù)矩陣Y 之間相關(guān)性的PLSR 分析均由本研究編寫的PLS 程序處理,分析的平臺為MATLAB software(7.6.0 version,The Mathworks,Inc.)。本次試驗是驗證TTPN 法的有效性及適用范圍,故未分成校正集與預(yù)測集,數(shù)據(jù)全部用于建立QSAR 模型。使用交互驗證作為內(nèi)部驗證,基于預(yù)測殘差平方和得出主成分的個數(shù),R2和相對標準偏差(Relative standard deviation,RSDc)作為校正集模型的評價標準。異常值影響著模型的質(zhì)量,為了獲得一個較好的模型和較好的預(yù)測能力,需要將一些異常值去除。在本文中,應(yīng)用Hotelling's T2[22]和殘差分析[23]兩種方式考察異常點。
由自由基體系中的抗氧化肽構(gòu)成的ORAC 數(shù)據(jù)庫由于其序列長度分布較為均衡,作為序列長度不等問題的試驗數(shù)據(jù),具有較強的代表性。分別使用ACCs 與TTPN 兩種方法對數(shù)據(jù)進行處理,然后進行PLS 回歸分析。根據(jù)前期研究,采用氨基酸描述符VHSE 表征ORAC 數(shù)據(jù)庫中的肽的結(jié)構(gòu)特征[24]。表4為其建模統(tǒng)計分析表。從表中可以看出,應(yīng)用TTPN 技術(shù)后所建立的QSAR 模型與應(yīng)用ACCs 技術(shù)所建立的模型相比,提取的主成分數(shù)均為1。然而R2和Q2卻相差較大,特別是Q2。應(yīng)用TTPN 技術(shù)得到的QSAR 模型R2為0.847,遠高于應(yīng)用ACCs 技術(shù)所得到的0.411。對Q2而言,應(yīng)用TTPN 技術(shù)的QSAR 模型為0.529,達到了建模的要求。然而應(yīng)用ACCs 技術(shù)的模型Q2卻小于0,也就是說,該QSAR 模型無效。
表4 ORAC、ACE、BT 數(shù)據(jù)庫使用ACCs 和TTPN 方法后模型統(tǒng)計分析表Table 4 Comparing to TTPN and ACCs methods based on the ORAC,ACE and BT databases
僅使用ORAC 數(shù)據(jù)庫驗證TTPN 與ACCs 技術(shù)的優(yōu)劣還不足以說明問題,故而ACE 數(shù)據(jù)庫也通過這2 種技術(shù)進行分析,采用篩選出的最佳描述符HESH 表征其結(jié)構(gòu)特征,進而得到相應(yīng)的QSAR 模型,結(jié)果如表4所示。從使用TTPN 和ACCs 技術(shù)后所得到的QSAR 模型來看,使用TTPN 技術(shù)要明顯優(yōu)于使用ACCs 技術(shù)。TTPN 法所建立模型的R2和Q2分別為0.724 和0.599,表明該模型具有較高的可靠性。然而,使用ACCs 技術(shù)的QSAR 模型其R2和Q2分別為0.329 和0.038。結(jié)果表明,TTPN 技術(shù)比ACCs 技術(shù)更適合對ACE 數(shù)據(jù)庫的數(shù)據(jù)進行信息提取和表征。
苦味肽數(shù)據(jù)量龐大,是眾多研究者研究的熱點,故對BT 數(shù)據(jù)庫進行同樣處理。選擇最適合的DPPS 描述符描述其結(jié)構(gòu)特征。ACCs 是一種有效的序列技術(shù),其效果在BT 數(shù)據(jù)庫中得到體現(xiàn),然而仍不及TTPN 技術(shù)所帶來的效果。從表4可以看出,使用ACCs 技術(shù)后,通過PLS 回歸分析,提取了3 個主成分,而使用TTPN 技術(shù)卻提取1 個主成分。從QSAR 模型結(jié)果來看,使用ACCs 技術(shù)處理后,其R2和Q2已達到QSAR 建模的要求(R2=0.676,Q2=0.583)。使用TTPN 技術(shù)得到的QSAR 模型其R2和Q2分別為0.718 和0.681??梢姡瑢τ诮⒖辔峨牡腝SAR 模型,TTPN 與ACCs 兩種處理技術(shù)都是可行的,而使用TTPN 技術(shù)進行表征所建立的QSAR 模型更為優(yōu)良。
由結(jié)果可知,雖然ACCs 對序列進行結(jié)構(gòu)表征是一種不錯的方法,但是并不理想,并不是對每種數(shù)據(jù)庫都適合。而TTPN 技術(shù)相比而言,則顯示出其優(yōu)越性,且應(yīng)用范圍廣泛,對ORAC 數(shù)據(jù)庫中的抗氧化肽、ACE 抑制肽以及苦味肽,均具有良好的表征效果。除此之外,有研究證實TTPN 法對金屬螯合肽[7]、自由基和脂質(zhì)體系下的抗氧化肽仍適用[17,25]。
根據(jù)TTPN 原理,即以數(shù)據(jù)庫中最短肽的序列長度作為基準,然后對肽的N 端和C 端取同樣長度的序列組成新的序列用于結(jié)構(gòu)表征。這也就是說,數(shù)據(jù)庫中,最短的序列越長,越能包含序列中更多氨基酸的信息。為此,本試驗選擇了一個序列長度相差較大的數(shù)據(jù)庫(BT 數(shù)據(jù)庫)用于驗證TTPN 法的應(yīng)用范圍,其序列長度從2~14,考察了序列長度2-14、3-14、4-14、5-14、6-14、7-14 的情況。建立了6 個數(shù)據(jù)庫,分別使用TTPN 技術(shù)處理,然后進行PLS 回歸分析,建立QSAR 模型。
表5為這6 個數(shù)據(jù)庫應(yīng)用TTPN 技術(shù)后,得到的QSAR 模型的統(tǒng)計分析表。其中HESH 為建模所用的氨基酸描述符。從數(shù)據(jù)庫2-14 到7-14的統(tǒng)計分析結(jié)果看,R2逐漸升高(R2為0.717~0.888),RSDc 逐漸下降,Q2保持在0.7 左右。也就是說,隨著序列長度差異的縮小,建立的QSAR 模型更為有效。可見,對于氨基酸序列(長度)差距較大時,TTPN 處理技術(shù)仍然是有效的,然而對序列長度差異較小的數(shù)據(jù)庫效果更好。圖2更為直觀地顯示出6 個數(shù)據(jù)庫經(jīng)過TTPN 技術(shù)處理后,建立的QSAR 模型的擬合能力。數(shù)據(jù)庫2-14、3-14、4-14、5-14、6-14、7-14 分別對應(yīng)圖2a~2f。
表6為基于重要變量項目(Variable important project,VIP 值)計算的序列位置重要性排序,數(shù)據(jù)庫2-14 和3-14 均顯示出N1、C1位置的重要性,也就是說兩端的氨基酸特別是N 端的氨基酸對活性影響較大,與先前苦味肽的構(gòu)效關(guān)系研究顯示“其兩端的氨基酸對活性影響較為重要”這一結(jié)論相符[17]。隨著序列長度的增加,對活性影響的序列位置也發(fā)生著改變,數(shù)據(jù)庫4-14 與5-14 就顯示出N 端與C 端附近位置的重要性,例如:數(shù)據(jù)庫4-14 中的N3 與數(shù)據(jù)庫5-14 中的C4 與N5。而數(shù)據(jù)庫6-14 與7-14 除了顯示出C 端位置重要性外(C2,C1,C3),也顯示出序列中間位置的重要性(N6,N5)。這說明,隨著序列長度的增加,可能由于肽的序列發(fā)生卷曲、折疊等變化,形成二級結(jié)構(gòu),進而影響了肽的活性。
表5 應(yīng)用TTPN 技術(shù)分析數(shù)據(jù)庫2-14、3-14、4-14、5-14、6-14、7-14 后建立的QSAR 模型統(tǒng)計表(HESH 氨基酸描述符表征)Table 5 QSAR results of databases 2-14,3-14,4-14,5-14,6-14,7-14 with TTPN method (HESH descriptor)
圖2 苦味肽數(shù)據(jù)庫2-14,3-14,4-14,5-14,6-14,7-14 的計算值和觀察值Fig.2 Calculation value and observation value for BT databases 2-14,3-14,4-14,5-14,6-14,7-14
試驗結(jié)果表明,數(shù)據(jù)庫中最小的肽的氨基酸序列越長,則對較長肽的分析越有利,能包含長肽的信息越多,對研究結(jié)構(gòu)特征與活性之間的關(guān)系越有利。
在TTPN 法應(yīng)用于數(shù)據(jù)庫序列長度相等的情況下,為考察其序列結(jié)構(gòu)表征效果對建模的影響,采用BT 三肽數(shù)據(jù)庫用于檢驗此種情況。從QSAR結(jié)果來看(表7),與普通建模方式相比(用數(shù)據(jù)庫3 表示)、采用TTPN 技術(shù)處理后(用數(shù)據(jù)庫3-3 表示)的QSAR 模型統(tǒng)計參數(shù)完全一樣(R2=0.758,Q2=0.616,RSDc=0.103,A=1)。也就是說2 種方法建模所得的擬合效果絲毫不差,可見重復(fù)序列表征對建立QSAR 模型沒有影響。
表7為基于VIP 總和計算出序列中重要位置的順序。分析可知,數(shù)據(jù)庫3 與數(shù)據(jù)庫3-3 的結(jié)果相同,均顯示出序列位置的重要性由C 端向N 端依次減弱。因此,基于以上結(jié)果認為使用TTPN 技術(shù)對序列等長數(shù)據(jù)庫的分析不存在差異,是完全可接受的。
對于序列等長的數(shù)據(jù)庫,應(yīng)用TTPN 技術(shù)與常規(guī)建模得到的模型相同,僅增加幾個與常規(guī)建模得到的相重復(fù)的變量(表7)。PLS 回歸分析的主要目的是降低維數(shù),由于多元數(shù)據(jù)的復(fù)雜性,難以找到主要因素,因此,PLS 回歸分析采用主成分分
析方法,以降低數(shù)據(jù)維數(shù),凸顯重要因素,即主成分。因此,TTPN 法對短肽的重復(fù)描述對QSAR 研究結(jié)構(gòu)沒有影響。
TTPN 技術(shù)對數(shù)據(jù)庫中長短不一的序列進行結(jié)構(gòu)表征有一定的局限性,如果將最長序列肽的氨基酸信息全部包括,則數(shù)據(jù)庫中最短肽的序列長度為其一半。為此,在BT 數(shù)據(jù)庫的基礎(chǔ)上,考察了以下2 種情況:1)考察數(shù)據(jù)庫中肽的氨基酸序列長度為3~6 個;2)考察氨基酸序列長度3~14個。目的在于探索TTPN 技術(shù)對以上情況的作用效果。
表6 數(shù)據(jù)庫2-14、3-14、4-14、5-14、6-14、7-14基于VIP 總和計算得出的重要序列位置的順序Table 6 The rank of important positions calculated based on the VIP summation for databases 2-14,3-14,4-14,5-14,6-14 and 7-14
從QSAR 研究結(jié)果可知 (表7),3-3、3-6、3-14 數(shù)據(jù)庫的QSAR 模型均可,都能建立起不錯的模型(R2>0.75,Q2>0.6),也能較好地提取信息,主成分數(shù)均為1?;谝陨辖Y(jié)果,可以認為最長序列的信息“全部包含” 或者“部分包含” 對建立的QSAR 模型影響不大。從圖3可以看出QSAR 模型擬合的效果。數(shù)據(jù)庫3-3(或3)、3-6、3-14 建模結(jié)果分別對應(yīng)圖3a~3c。
表7 數(shù)據(jù)庫3 以及應(yīng)用TTPN 方法數(shù)據(jù)庫3-3、3-6、3-14 進行結(jié)構(gòu)表征后的QSAR 模型結(jié)果Table 7 Database 3 and QSAR model results after structural characterization of databases 3-3,3-6 and 3-14 using TTPN method
圖3 數(shù)據(jù)庫3、3-6、3-14 的計算值與觀察值Fig.3 Calculation value and observation value for databases 3,3-6 and 3-14
表8為基于VIP 總和計算出序列中重要位置的順序。對應(yīng)于數(shù)據(jù)庫3-3、3-6、3-14 所建的QSAR 模型結(jié)果,數(shù)據(jù)庫3-3 與3 的結(jié)果顯示出三肽中氨基酸所在序列位置的重要性由C 端向N端依次減弱。然而,當序列長度擴大到6 以上時候(六肽以上),則顯示出N1位置的重要性。數(shù)據(jù)庫3-6 與數(shù)據(jù)庫3-14 的結(jié)果相似,只是N2和N3的重要性略有差異。由以上結(jié)果可知,對于序列不等長的數(shù)據(jù)庫,經(jīng)TTPN 處理后對數(shù)據(jù)庫中氨基酸序列信息“部分包含”與“全部包含”進行比較,得到的模型相差不大,有小范圍變動。
比較數(shù)據(jù)庫3-3、3-6 的建模結(jié)果,隨著序列長度增加(由三肽增加到六肽),發(fā)現(xiàn)活性肽的序列特征具有較大差異,最為重要的序列位置由C1變?yōu)镹1(表8)。也就是說,隨著序列長度的增加,對活性影響較大的序列位置發(fā)生變化。數(shù)據(jù)庫3-6 所用TTPN 法處理仍然包含了各個肽段的全部序列信息,因此排除了TTPN 法本身的影響。推測這可能是由于長肽段(如五肽、六肽)本身所表現(xiàn)出的物理化學屬性與三肽相比產(chǎn)生了不同的效果。無論如何,均為序列兩端的位置對活性造成較大的影響,也從另外一個角度說明TTPN 法的可行性。
通過數(shù)據(jù)庫3-6、3-14 的建模結(jié)果比較,說明序列信息的“全部包含”與“部分包含”得到的結(jié)果相差不大,對活性影響較大的序列位置并沒有改變,僅為影響較小的位置發(fā)生了改變。這可能是對于序列長度在6 及以上的肽,形成了二級結(jié)構(gòu),對活性影響較大的位置為兩端的位置以及形成二級結(jié)構(gòu)后突出的部分。因此,對序列較長的肽,兩端及突出的位置更加重要。因此,應(yīng)用TTPN 法對數(shù)據(jù)進行結(jié)構(gòu)表征是可行且有效的。
對比數(shù)據(jù)庫3-14、7-14 建模結(jié)果的分析可知,數(shù)據(jù)庫7-14 的QSAR 模型反映出N6 位置對活性的影響明顯。隨著數(shù)據(jù)庫中肽序列長度的增加,序列中對活性影響的位置出現(xiàn)在序列中間部位,因此,序列越長,中間位置的氨基酸對肽段活性的影響越大。故TTPN 法更適合序列長度較短的數(shù)據(jù)庫,對于序列長度較長的數(shù)據(jù)庫 (六肽以上),則需要將序列中全部信息包括在內(nèi),方可全面對其進行結(jié)構(gòu)特征分析。
表8 數(shù)據(jù)庫3、3-3、3-6、3-14 基于VIP 總和計算得出的重要序列位置的順序Table 8 The rank of important positions calculated based on the VIP summation for databases 3,3-3,3-6,3-15 and 7-14
本文使用ORAC 數(shù)據(jù)庫、ACE 數(shù)據(jù)庫以及龐大的BT 數(shù)據(jù)庫,對分別采用TTPN 與ACCs 技術(shù)對肽表征后構(gòu)建的QSAR 模型質(zhì)量進行比較分析。研究顯示,在3 個數(shù)據(jù)庫中,TTPN 技術(shù)與ACCs 技術(shù)相比,不僅具有良好的表征能力,所構(gòu)建的QSAR 模型也具有更好的預(yù)測和分析能力,而且能夠闡明對活性具有重要影響的氨基酸殘基的位置和特性。此外,TTPN 技術(shù)應(yīng)用范圍廣泛,適合多種活性肽數(shù)據(jù)庫。TTPN 法適用于肽段兩端位置對活性影響較大的情況,特別是適合短鏈的寡肽數(shù)據(jù)庫,對于序列長度較大的活性肽數(shù)據(jù)庫,則需要將序列中全部信息包括在內(nèi),方可全面對其進行結(jié)構(gòu)特征分析。綜上所述,TTPN 是一種更有效且更適合處理數(shù)據(jù)庫中不同長度肽序列的新方法。