許 航, 田菲菲, 吳 堅
(西南交通大學 生命科學與工程學院, 成都 610031)
生命科學發(fā)展迅速,該領(lǐng)域的研究文獻也正在以難以計量的速度巨增。關(guān)于氨基酸描述子在多肽定量構(gòu)效關(guān)系中的研究文獻也成倍的增長,目前已有的氨基酸描述子已有近30種。如何在眾多的氨基酸描述子建立的定量構(gòu)效模型中尋求到最好的表達方式、解釋、歸類、列舉知識成為了人們需要解決的重大課題之一。
氨基酸描述子[2]是氨基酸的拓撲性質(zhì)、物理化學性質(zhì)、三維結(jié)構(gòu)性質(zhì)的量化數(shù)值,用于氨基酸的結(jié)構(gòu)與性質(zhì)的定量描述,把氨基酸序列轉(zhuǎn)換成結(jié)構(gòu)描述符矩陣的一類向量。目前在建立多肽的各種定量構(gòu)效關(guān)系(quantitative sequence activity relationship, QSAR)模型中,普遍采用的方法是通過收集20種氨基酸的多種物理化學性質(zhì)參數(shù),然后采用主成分分析(principal component analysis, PCA)提取能表征原始參數(shù)數(shù)據(jù)絕大部分信息的幾個性質(zhì)。用這些主成分得分表征肽序列的各個氨基酸,最后將表征得到的參數(shù)與實驗觀測活性建立起肽QSAR模型。我們把經(jīng)過主成分分析得到的氨基酸的主成分得分稱為氨基酸描述子,并且利用氨基酸描述子表征多肽是當前多肽定量構(gòu)效關(guān)系研究的主要方法。
Kidera等人[3]從已有文獻中提取出描述20種氨基酸的188種性質(zhì)參數(shù),并運用因子分析方法,得到10個正交因子,對氨基酸的性質(zhì)進行定量描述。隨后,Hellerg等人在此基礎(chǔ)上,提出氨基酸描述子Z-scales。Collantes等人提出3D氨基酸側(cè)鏈描述子側(cè)鏈表面積(isotropic surface area, ISA),電荷指數(shù)(electronic charge index, ECI)。田菲菲對收集到的天然氨基酸的23種靜電性質(zhì),37種立體性質(zhì)、54種疏水性質(zhì)和5種氫鍵性質(zhì)進行信息壓縮濾噪處理,得到10主成分得分,提出了新型氨基酸描述子氨基酸理化性質(zhì)分類得分(divided physicochemical property scores, DPPS)[4],T-scale[5]等、梅虎等[6]通過采用主成分分析(principal component analysis, PCA)分別處理收集到的天然氨基酸的25種拓撲化學信息和50種物理化學性質(zhì),得到兩組新氨基酸描述子,即氨基酸結(jié)構(gòu)與拓撲性質(zhì)得分(principal component scores vector of structural and topological variables, VSTV)和疏水性立體結(jié)構(gòu)帶電性得分(principal component score vector of hydrophilicity, steric, and electronic properties,VHSE)[7]。梁桂兆等用多元分析方法分析挑選20種天然氨基酸的149個疏水性質(zhì)參數(shù),提出氨基酸廣義疏水標度矢量GH-scale[8],它們對肽均表現(xiàn)出較好的表征能力。
收集的27種氨基酸描述子都未考慮所表征肽鏈內(nèi)部的氨基酸殘基之間的相互影響,如氨基酸之間相互帶電性,氫鍵,疏水性之間的相互影響。同時傳統(tǒng)的氨基酸描述子對肽的表征都是建立在真空模型基礎(chǔ)之上,沒有考慮肽與周圍環(huán)境之間的影響,如人體的液體環(huán)境,肽配基與相應(yīng)的靶點蛋白相互結(jié)合后的構(gòu)效變化等因素。我們認為,氨基酸描述子有其自身的局限,過于復雜,種類繁多,干擾因素太多,難以解釋,不易操作。常規(guī)的方法已經(jīng)難以在建模效果的質(zhì)上取得飛躍,需要從方法學上改變氨基酸QSAR模型的性能。
本文收集已有的氨基酸描述子,通過“descriptor of amino acids”或“氨基酸描述子”為檢索策略,在springer、SDOS、NCBI、CNKI等數(shù)據(jù)庫中進行文獻檢索。通過對比篩選,去除重復的氨基酸描述子,共收集到27種不同種類的氨基酸描述子,并從中提取各氨基酸描述子的數(shù)值(27種氨基酸描述子的數(shù)值見表1)。
目前主要有3大類型描述子:1)物理化學參數(shù), 它是一種以氨基酸分子式為基礎(chǔ)的描述子,如氨基酸的整體與部分基團帶電性,疏水性,立體結(jié)構(gòu),氫鍵貢獻等參數(shù),代表描述子有VHSE、HSEHPCSV 等。2)三維結(jié)構(gòu)參數(shù)和量子化學參數(shù),通過這些參數(shù)可以了解整個氨基酸分子的立體幾何構(gòu)型與特性,如描述子VSGETAWAY、SVEEVA等。3)拓撲指數(shù),它通過圖論方法以數(shù)量來表征分子的結(jié)構(gòu),計算分子的整體連接情況,常見的拓撲指數(shù)有如Wiener指數(shù),Randic指數(shù),balaban指數(shù)等,代表描述子有VSTV、T-scales等。4)其它類型描述子,如廣義疏水描述子,氨基酸疏水性指標及殘基溶解狀態(tài)參數(shù),代表描述子GH-scale;量子能量參數(shù)描述子,通過量子化學理論獲得的,通常分為電子結(jié)構(gòu)參數(shù)和空間幾何參數(shù),代表描述子t-scales、SVEEVA;OD-3D結(jié)構(gòu)信息描述子,氨基酸0D-3D的結(jié)構(gòu)信息,代表描述子SZOTT。
表1 27種氨基酸描述子的類型
表2 經(jīng)典肽數(shù)據(jù)集
氨基酸描述子的提出是為了表征肽序列,實現(xiàn)肽序列的結(jié)構(gòu)性質(zhì)參數(shù)化,將肽結(jié)構(gòu)轉(zhuǎn)化成氨基酸描述子矩陣中的一個向量,用于測試氨基酸描述子的有效性。肽的類似物可以成為一個集合,可以從實驗或相關(guān)文獻中得到相應(yīng)的活性數(shù)值(8組肽集的活性數(shù)值見表2),又稱為肽數(shù)據(jù)集,目前研究最多的肽類有血管緊張素轉(zhuǎn)化酶抑制劑、苦味活性二肽、后葉催產(chǎn)素、血管舒緩激肽促進劑等。
本文選取8組肽數(shù)據(jù)集,每組肽數(shù)據(jù)集包含的多肽數(shù)量不同,最少的肽集合后葉催產(chǎn)素只有21個,最多的三肽集合有162個,同時這8組肽序列長短不同,最短的肽血管緊張素轉(zhuǎn)化酶抑制劑、苦味活性二肽是二肽,最長的肽CAMELs(抗菌肽)為十五肽,便于后續(xù)對比分析。這些肽數(shù)據(jù)集在許多有關(guān)多肽的定量構(gòu)效關(guān)系的研究文獻中反復被人們使用,且利用它們作為肽數(shù)據(jù)集取得了比較好的建模效果,是作為多肽定量構(gòu)效關(guān)系研究中的常用材料。
其中以血管緊張素轉(zhuǎn)化酶抑制劑、苦味活性二肽作為氨基酸描述子表征肽序列的文獻已多次報道,如Hellberg 提出描述子Z-scales、Cocchi提出的描述子t-scales、Collantes提出的側(cè)鏈描述子ISA-ECI都將58個血管緊張素轉(zhuǎn)化酶抑制劑、48個苦味活性二肽作為多肽定量構(gòu)效關(guān)系(QSAR)樣本集。隨后梅虎[6]提出的拓撲描述子VSTV,丁俊杰[2]提出的三維結(jié)構(gòu)描述子C-scales,仝建波[19-21]提出的三維氨基酸描述子SVG、SVTD,田菲菲[31]提出的拓撲描述子T-scale都是以58個血管緊張素轉(zhuǎn)化酶(ACE)抑制劑作為多肽表征樣本集。Zaliani[25]提出三維結(jié)構(gòu)描述子MS-WHIM scores,梁桂兆[30]提出的0D-3D結(jié)構(gòu)信息描述子SZOTT,舒茂[12]提出的物理化學性質(zhì)描述子HSEHPCSV,仝建波[21]提出的三維氨基酸描述子VSGETAWAY,彭劍秋提出的物理化學性質(zhì)描述子SVHEHS都是以48個苦味活性二肽作為多肽表征樣本集。
1.3.1 偏最小二乘法(partial lest square regression, PLS)建模
1983年,最先由Wold和Albano等人提出偏最小二乘法,它能有效的處理高維度、強噪音、復共線性、甚至數(shù)據(jù)缺失的線性回歸建模問題。主要適用于多自變量對多因變量的線性回歸建模,特別適合當多肽的結(jié)構(gòu)描述符多于樣本數(shù)目的情況下進行建模。偏最小二乘法首先需要對自變量矩陣X和因變量矩陣Y進行雙線性分解:
X=TPT+E
(1)
Y=UQT+F
(2)
潛因變量T和U要求最大限度的包含各自數(shù)據(jù)矩陣中的變異信息,并且兩者之間的重疊或相關(guān)性要達到最大。因此可得公式(3):
U=CT+e
(3)
在公式3中,C為系數(shù),e為殘差矢量,根據(jù)上述要求潛因變量T和U應(yīng)最大限度的代表數(shù)據(jù)矩陣X和數(shù)據(jù)矩陣Y中的信息。本文所有建模都采用偏最小二乘法(PLS),由Simcap10.0 完成,交互檢驗為留一法(leave one out),其它均為軟件默認設(shè)置。
1.3.2 模型驗證
模型的質(zhì)量評價是定量構(gòu)效關(guān)系中十分重要的一個環(huán)節(jié)。模型驗證采用常規(guī)的內(nèi)部留一法(LOO)交叉驗證以及外部驗證。
本文將收集到的27種氨基酸描述子分別表征8組肽集合,隨后每組被表征的肽序列都要進行隨機劃分,共需隨機劃分216次,全手動完成。隨機劃分樣本的2/3為訓練集,剩余的1/3為測試集,進行外部驗證。
1.3.3 建模結(jié)果統(tǒng)計量
評價模型的優(yōu)劣主要涉及到4個統(tǒng)計量[31]。
(4)
(5)
(6)
(7)
8組肽集分別經(jīng)27種氨基酸描述子表征后,利用偏最小二乘法得到8組27種描述子的建模統(tǒng)計數(shù)值(見表3),橫坐標為27種氨基酸描述子,且每種描述子對應(yīng)5個建模統(tǒng)計量,縱坐標為5個建模統(tǒng)計量的數(shù)值,可得建模柱形圖,如圖1所示。
以苦味二肽為例,從圖中可以看出除氨基酸描述子VSGETAW沒有數(shù)值,建模效果最差,其它26種描述子均有數(shù)值,其中15種氨基酸描述子ISA-ECI、MS-WHIM scores、SFED、VHSE、GH-scales、SZOTT、T-scale、SVRDF、HSEHPCSV、SVG、SVTD、HESH 、T-scale、G-scale的主成分數(shù)(A)為1,9種氨基酸描述子Z-scales、t-scales、VSTV、C-scales、VHSEH、VSW、V、SVEEVA、SVHEHS的主成分數(shù)(A)為2,2種氨基酸描述子DPPS、SVRG的主成分數(shù)(A)為3。
3種氨基酸描述子SVEEVA、DPPS、V的RMSEE數(shù)值在0.1~0.2之間,13種氨基酸描述子GH-scales、T-scale、ISA-ECI、VSW、VSTV、HSEHPCSV、C-scales、t-scales、HESH、Z-scales、SVHEHS、VHSEH、SVRG的RMSEE數(shù)值在0.2~0.3之間,8種氨基酸描述子SFED、MS-WHIM score、SVRDF、SZOTT、G-scale、ST-scale、FASGAI、VHSE的RMSEE數(shù)值在0.3~0.4之間,2種氨基酸描述子SVG、SVTD的RMSEE數(shù)值在0.4以上。
6種氨基酸描述子VHSE、HESH、V、VHSEH、DPPS、ISA-ECI的RMSEP數(shù)值在0.2~0.3之間,13種氨基酸描述子VSTV、G-scale、G-scale、T-scale、SVEEVA、MS-WHIM scores、ST-scale、VSW、HSEHPCSV、SFED、C-scales、SVHEHS、FASGAI、t-scales的RMSEP數(shù)值在0.3~0.4之間,7種氨基酸描述子SVTD、SVRDF、GH-scales、SVG、SZOTT、SVRG、Z-scales的RMSEP數(shù)值在 0.4以上。
綜合比較8組肽集用27種氨基酸描述子表征后得到的5個建模統(tǒng)計數(shù)值,按建模效果從優(yōu)到劣的順序依次為:苦味二肽>ACE抑制劑>舒緩肽>后葉催產(chǎn)素>抗原肽>CAMEL>三肽>激肽拮抗劑。總體上肽序列越短,建模效果越好,肽序列越長,則影響因素越多,建模效果越差。
圖1 8組肽集用27種氨基酸描述子表征后建模柱形圖
Fig 1 The column chart of eight sets of peptide with 27 amino acid descriptors set of modeling
在收集的氨基酸描述子中,主要有3大類描述子,其中有11個物理化學描述子VHSE、HSEHPCSV、DPPS、FASGAI、VHSEH、SVHEHS、Z-scales、V、HESH、G-scale、SFED,9個三維結(jié)構(gòu)描述子VSGETAWAY、SVRDF、SVG、SVTD、C-scales、ISA-ECI、 MS-WHIM scores、SVRG、VSW,3個拓撲描述子VSTV、T-scale、ST-scale。
表3 苦味二肽用3類描述子表征后建模統(tǒng)計量平均值
表4 ACE抑制劑用3類描述子表征后建模統(tǒng)計量平均值
表5 舒緩肽促進劑用3類描述子表征后建模統(tǒng)計量平均值
表6 后葉催產(chǎn)素用3類描述子表征后建模統(tǒng)計量平均值
表7 抗原肽用3類描述子表征后建模統(tǒng)計量平均值
表8 CAMELs用3類描述子表征后建模統(tǒng)計量平均值
7種肽集用27種氨基酸描述子表征得到建模統(tǒng)計量折線圖,如圖2所示。橫坐標為按年代依次發(fā)表的氨基酸描述子,縱坐標為每個描述子對應(yīng)的5個統(tǒng)計量的數(shù)值??梢钥闯鲭S著描述子發(fā)表的年代的推進,后發(fā)表的描述子并不一定比先發(fā)表的描述子有質(zhì)的進步,它們的建模效果是呈現(xiàn)一個波動狀態(tài)的。
表9 三肽用3類描述子表征后建模統(tǒng)計量平均值
圖2 7種肽集用27種描述子表征所得建模統(tǒng)計量折線圖
Fig 2 The statistics of line graph of seven peptides sets with 27 descriptors to characterize
表10 7組肽集各建模統(tǒng)計量的平均值
本文通過利用已經(jīng)發(fā)表的27種描述子表征不同肽集,得出不同種類氨基酸描述子的建模統(tǒng)計量數(shù)值。通過比較分析這些建模統(tǒng)計量,可以看出不同年代的描述子的建模效果并沒有實質(zhì)性的進步,物理化學描述子的建模效果優(yōu)于拓撲描述子,拓撲描述子的建模效果優(yōu)于三維結(jié)構(gòu)描述子。我們認為氨基酸描述子自身固有的問題限制了它們對多肽QSAR模擬效果的實質(zhì)性提高,傳統(tǒng)的方法并未考慮肽鏈內(nèi)部氨基酸之間的交互效應(yīng),表征都是建立在真空模型基礎(chǔ)之上,未考慮肽與周圍環(huán)境之間的影響,如肽配基與相應(yīng)的靶點蛋白相互結(jié)合后的構(gòu)效變化等因素,本課題也將對此展開后續(xù)研究。
參考文獻:
[1]覃禮唐, 劉樹森, 肖乾芬, 等. QSAR模型內(nèi)部與外部實驗方法綜述[J]. 環(huán)境化學, 2013, 32(7): 1026-1211.
[2]丁俊杰, 丁曉琴, 趙立鋒, 等. 多肽定量構(gòu)效關(guān)系與分子設(shè)計[J]. 化學進展, 2005, 17(1): 131-136.
[3]車 挺.新型氨基酸描述子及其在肽QSAR中的應(yīng)用[D]. 西安: 陜西科技大學, 2012.
[4]Tian F F, Yang L, Lv F L. In silico quantitative prediction of peptides binding affinity to human MHC molecule: an intuitive quantitative structure-activity relationship approach[J]. Amino Acid, 2009, 36, 535-554.
[5]Tian F F, Zhou P, Li Z L J. T-scale as a novel vector of topological descriptors for amino acids and its application in QSARs of peptides[J].Mol Struct, 2007, 830: 106-115.
[6]梅 虎, 周 原, 孫立力, 等. 一種新的氨基酸描述子及其在肽QSAR中的應(yīng)用[J]. 物理化學學報, 2004, 20(8): 821-825.
[7]Mei H, Liao Z H, Zhou Y, et al. A new set of amino acid descriptors and its application in peptide QSARs[J]. Pept Sci, 2005, 80: 775-786.
[8]梁桂兆, 李志良, 周 原, 等. 氨基酸廣義疏水標度(GH-scale)用于HLA-A*0201限制性CTL表位定量預測[J]. 科學通報, 2006, 51(11): 1259-1263.
[9]Yang L, Shu M, Ma K W. ST-scale as a novel amino acid descriptor and its application in QSAM of peptides and analogues[J].Amino Acid, 2010, 38: 805-816.
[10]Shu M, Huo D Q, Mei H. New descriptors of amino acids and its application to peptide quantitative structure-activity relationship[J]. Chinese J Struct Chem, 2008, 27(11): 1375-1383.
[11]Liang G Z, Yang L, Kang L F. et al. Aset of new aminoacid descriptors applied in prediction of MHC class I binding peptides[J]. Eur J Med Chem, 2009, 44: 1144-1154.
[12]楊善彬, 夏之寧, 舒 茂, 等. 氨基酸描述子VHSEH用于多肽定量序效建模研究[J].高等學?;瘜W學報, 2008, 29(11): 2213-2217.
[13]劍 秋, 劉 靜, 管 驍. 一種新的氨基酸描述符SVHEHS在生物活性肽QSAR中的應(yīng)用研究[J].食品科學, 2012, (337): 26-31.
[14]Hellberg S, Eriksson L, Jonsson J. Minimum analogue peptidesets(MAPS) for auantitative structure-activity relationships. Int[J]. Protein Res. 1991, 37, 414-424.
[15]Lin Z H, Long H X, Bo Z, et al. New descriptors of amino acids and their application to peptide QSAR study[J].Pept. 2008, 29: 1798 1805.
[16]Hu M, Mei H, Yang S B, et al. Structural parameter characterization and bioactivity simulation based on peptide sequence[J].QSAR Comb. Sci. 2009, 28: 27-35.
[17]Wang X Y, Wang J, Lin Y, et al. QSAR study on angiotensin-converting enzyme inhibitor oligopeptides based on a novel set of sequence information descriptors[J]. Mol Model, 2011, 17: 1599-1606.
[18]Kim J, Nam K Y, Cho K H, et al. Theoretial study on hydrophobicity of amino acid by the salvation free energy density model[J].Bull Krorean Chem Soc, 2003, 24(12): 1742-1750.
[19]仝建波, 張生萬. 一種新的三維氨基酸描述子及其在肽類藥物QSAR中的應(yīng)用[J].物理化學學報, 2007, 23(1): 37-43.
[20]仝建波, 張生萬, 成素麗, 等. 三維氨基酸結(jié)構(gòu)描述子矢量SVRDF及其在肽QSAR中的應(yīng)用[J].藥學學報, 2007, 42(1): 40-46.
[21]仝建波, 劉淑玲, 劉玉婷, 等.氨基酸描述子SVG及其在肽序列QSAR中的應(yīng)用[J].精細化工, 2008, 25(7): 655-659.
[22]仝建波, 劉淑玲, 來水利, 等.一種新三維氨基酸描述子SVTD及在肽QSAR的應(yīng)用[J].分析科學學報, 2008, 24(5):522-526.
[23]丁俊杰, 丁曉琴, 趙立峰, 等. 新型三維氨基酸結(jié)構(gòu)描述符的研究及其在多肽QSAR中的應(yīng)用[J].藥學學報, 2005, 40(4): 340-346.
[24]Collantcs E R, Donn W J S J.Amino acid side chain descriptors for quantitative structure-activity relationship studies of peptide analogues[J]. Med Chem, 1995, 38: 2705-2713.
[25]Zaliani A, Gancia E. MS-WHIM scores for amino acids: a new 3D-Description for peptide QSAR and QSPR studies[J]. Chem Inf Comput Sci, 1999, 39: 525-533.
[26]Tong J B, Che T, Li Y F, et al. A descriptor of amino acids: SVRG and its application to peptide quantitative structure activity relationship. SAR and QSAR in Environmental Research. 2011, 22(5-6): 611-620.
[27]Tong J, Liu S, Zhou P, et al. A novel descriptor of amino acids and its application in peptide QSAR[J]. Theor Biol, 2008, 253: 90-97.
[28]Cocchi M, Johansson E. Amino acids characterization by GRID and multivariate data analysis[J]. Quant Struct Act Relat, 1993, 12: 1-8.
[29]Tong J B, Che T, Liu S L, et al. Arch Pharm SVEEVA descriptor application to peptide QSAR[J]. Chem Life Sci, 2011, 344: 719 725.
[30]梁桂兆, 李志良, 周 原, 等.一組新氨基酸描述子用于肽定量構(gòu)效關(guān)系研究[J]. 化學學報, 2006, 64(5): 393-396.
[31]田菲菲. 肽結(jié)構(gòu)表征及統(tǒng)計建模方法學研究與應(yīng)用[D]. 重慶: 重慶大學, 2011.