林 深, 鐘镕華, 孟繁梅, 鄭曉如, 伍儉兒, 張尚宏
(1. 中山大學 生命科學學院, 廣州 510275; 2. 中山大學 生物工程研究中心, 廣州 510275)
谷氨酸-丙酮酸氨基轉移酶(Glutamate-pyruvate transaminase, GPT),簡稱谷丙轉氨酶,又稱丙氨酸氨基轉移酶(Alanine aminotransferase),是自然界中廣泛存在的一種酶,在維持生物正常的葡萄糖和氨基酸代謝中起到重要的作用,更是人體肝病、糖尿病和冠心病等疾病的重要預測因子[1]。研究表明,谷丙轉氨酶皆屬于吡哆醛-5-磷酸(Pyridoxal-5-phosphate, PLP)依賴性酶家族,而吡哆醛-5-磷酸是一種多功能的輔助因子,輔助酶催化氨基酸的各種反應,包括轉氨、脫羧、外消旋、β-和γ-消除和取代、羥醛縮合反應和Claisen反應[2-3]。有研究表明,在細菌的氨基酸代謝中最重要的部分是谷丙轉氨酶所催化的代謝反應,通過丙氨酸和谷氨酸的相互轉化,精確控制丙氨酸和谷氨酸濃度[4]。
盡管GPT的催化機理已經得到了闡釋,但目前對于植物來源GPT的研究很少,三維結構明確的植物GPT更是只有大麥(Hordeumvulgare)來源的GPT(PDB登記號3TCM)[5]。分子模型的構建是深入研究蛋白質各項性質的基礎,構建一個新的植物GPT的模型,將對其他同類型酶的研究提供便利與支持。由于解析晶體難度大、耗費高,利用相似度高的晶體結構進行同源建模成為一種被廣為接受且有較高準確性的方法[6]。使用軟件模擬的方法,得到蛋白質三維結構模型,探究模型在不同濃度的緩沖溶液中的構造變化,可以初步得到蛋白質的一些性質。
另一方面,近年來,親和標記被廣泛應用于蛋白質純化,例如聚精氨酸標簽(Poly-Arginine tag, Arg-tag)、鈣調蛋白結合肽(Calmodulin-binding peptide)、纖維素結合域(Cellulose-binding domain)、蛋白質二硫化物異構酶I(Protein disulfide isomerase I, DsbA)、聚組氨酸標簽(Poly-Histidine tag, His-tag)、Flag標簽(Flag-tag)、鏈霉親和素結合肽標簽(Streptavidin-binding peptide, SBP-tag)等[7]。其中組氨酸標簽的應用最為廣泛,PDB中接近25%的蛋白質是組氨酸標記后,通過金屬固定化親和色譜純化得到的[8-9]。然而,組氨酸標簽在表達時可能被包埋于蛋白質中而無法被吸附劑吸附,且組氨酸標簽可能會影響酶的構象[10],因而在親和層析前預測組氨酸標記后蛋白質的結構,能夠預判用組氨酸標記純化蛋白的可行性。
大豆(Glycinemax)作為一種常見的固氮農作物,其材料易得,經濟效益高。在對大豆的研究中發(fā)現GPT存在于大豆的所有組織中[11],然而目前還沒有關于大豆谷丙轉氨酶(GlycinemaxGlutamate-Pyruvate Transaminase,GmGPT)三維模型的研究。本文從軟件模擬建模的角度,探究GmGPT的結構特征和活性區(qū)域及其拓展應用,為大豆乃至植物來源GPT的研究提供更多的理論準備。
在NCBI數據庫里查詢已知的GmGPT的可能序列,共得到了7個已知登錄在數據庫中的序列,如表1。
表1 NCBI的protein數據庫中大豆的谷丙轉氨酶的序列
考慮到序列準確性和建模的正確性,我們挑選了經過驗證且參考序列較多的NP_001237567.2序列作為我們建模的出發(fā)序列,其序列如圖1。
圖1 NP_001237567.2的序列
在NCBI的blast程序搜索與NP_001237567.2序列相似度高且已知晶體結構的蛋白質,得到對應的大麥GPT(PDB登錄號3TCM)和人源GPT(PDB登錄號3IHJ),序列相似度均大于40%,符合同源建模要求。利用Discovery Studio的Align Multiple Sequences模塊,以BLOSUM矩陣作為多重序列評分矩陣,綜合比對出發(fā)序列和3TCM序列以及3IHJ序列。對比結果如圖2。利用Discovery Studio(版本號2.5)的Build Homology Models模塊,以3TCM和3IHJ為模板構建大豆谷丙轉氨酶模型。經過簡單的loop修飾得到模型A,并通過UCLA的Saves平臺對模型A的各項建模指標進行驗證。
應用Discovery Studio(版本號2.5)的Solution模塊將模型A分別置于濃度為0.05、0.10、0.15、0.20、0.25和0.30 mol/L的KH2PO4-Na2HPO4模擬緩沖溶液中(pH 7),依次采用Steepest Descent及Conjugate Gradient算法,分步采用固定蛋白質整體、蛋白質主鏈及全部柔性處理,對模型能量最小化[12]。通過UCLA的Saves平臺對各個模型的各項建模指標進行驗證,取其中指標最好的一個模型作為GmGPT的溶液狀態(tài)模型B,并對此模型進行活性位點與酶反應底物對接的分析。
圖 2 NP_001237567.2,3TCM和3IHJ序列對比圖
在NP_001237567.2序列的C端加上6個組氨酸標簽,利用Discovery Studio的Build Homology Models模塊,以3TCM和3IHJ為模板構建大豆谷丙轉氨酶模型,得到模型C,讓模型C得到與A相同的loop修飾,然后將其置于0.20 mol/L、pH 7的KH2PO4-Na2HPO4模擬緩沖溶液中,依次采用Steepest Descent及Conjugate Gradient算法,分別固定蛋白質整體、蛋白質主鏈及全部柔性,對模型能量最小化,得到模型D[12]。探究模型D的C端組氨酸標簽是否會進入蛋白質內部及組氨酸標簽與活性位點的距離,從而判斷組氨酸標記GmGPT的可行性。通過Discovery Studio的Calculation Protein Ionization and Residue pK模塊,計算得到模型D的等電點,為后續(xù)表達和分離純化GmGPT的工作進行理論準備。
圖為NP_001237567.2序列經同源建模所得到的單體模型A。圖中蛋白質主鏈為灰白色;輔基PLP為櫻桃紅色
通過同源建模和loop修飾得到模型,并將可能的輔基PLP的醛基與活性中心Lys291的ε-NH2以Schiff堿連接,得到切除了C端Asp474至Leu4818個殘基的不匹配序列后的模型A(圖3)。在UCLA的Saves平臺驗證后,模型的Verify Score為91.97%,Ramachandran Plot如圖4。Ramachandran Plot顯示模型中氨基酸殘基93.7%位于最合適區(qū),5.0%位于允許區(qū),1.0%位于最大允許區(qū),只有0.3%位于不允許區(qū)。上述結果顯示出模型A質量較好。
圖4 大豆谷丙轉氨酶模型A的Ramachandran Plot
將模型A在上述溶液中進行分子動力學模擬后,得到6個不同的模型,這6個模型通過UCLA的Saves平臺評估得到的Verify 評分、Errat評分和Prove評分如表2??梢姰斁彌_液濃度為0.2 mol/kg時,GmGPT模型的各項評分十分突出,其Verify 評分為97.67%,Errat評分為92.0430,Prove評分為0.0%,表明所建模型是合理的。其結構圖如圖5,中心活性位點結構圖如圖6。該模型有兩個結構域,結構域I由Pro5到Phe70和Ile323到Glu473兩端氨基酸序列組成,結構域II由Ala83到Ser322氨基酸序列組成,具體如圖7。利用Discovery Studio的Dock Ligands (LibDock)模塊,分別將谷氨酸、丙酮酸、α-酮戊二酸和丙氨酸與模型B進行剛性對接,對接均非常成功,結合位置均在Lys291-PLP附近??梢娔P虰對GPT的4種底物均具有較高的親和性,且Lys291-PLP為酶的活性位點。
表2 不同濃度緩沖溶液模型的各項評分指標
圖為模型A在模擬緩沖溶液中進行能量最小化后所得到的模型B。圖中蛋白質主鏈為灰白色;輔基PLP為櫻桃紅色
我們恢復了出發(fā)序列C端Asp474至Leu4818個殘基的不匹配序列后,再于C端增加6個His殘基作為組氨酸標簽,得到表達序列。其同源建模后的模型為模型C,如圖8-A。對其進行與A同等的loop修飾并在溶液狀態(tài)按照與模型B同樣的方法模擬后,得到模型D,如圖8-B。模型D僅裸露出C端包含組氨酸標簽的Asp474至His48714個殘基在外側,而且距離活性位點較遠,可以忽略其對蛋白質結構的影響[13]。通過Discovery Studio的Calculation Protein Ionization and Residue pK模塊,計算得到模型D的等電點為6.51。
圖為模型B活性位點與輔基PLP有相互作用的Ala139,Ser140,Tyr165,Asp249,Tyr252,Lys291,Arg300。圖中蛋白質主鏈為灰白色;輔基PLP為櫻桃紅色;有相互作用的氨基酸為藍色
圖為模型B的結構域。圖中結構域I為藍色;結構域II為綠色;輔基PLP為櫻桃紅色;其余氨基酸為灰白色
A為NP_001237567.2序列在C端添加組氨酸標簽后,經同源建模所得到的單體模型C。B為模型C在模擬緩沖溶液中進行能量最小化后所得到的模型D。圖中NP_001237567.2序列所編碼的蛋白質主鏈為灰白色;組氨酸標簽為黃色;輔基PLP為櫻桃紅
因而可通過親和層析、分子凝膠過濾和離子交換柱層析純化后,利用胰凝乳蛋白酶水解Tyr478和Ser479之間的肽鍵,得到除去標簽且純度較高的GmGPT。
GPT在各種生物的代謝中起到重要的作用,而大豆中的GPT更是能在大豆內澇缺氧和缺氧后氧濃度恢復的情況下高效利用溶液中的氮,使植物組織保持活性[11]。對于蛋白質研究來說,其結構模型是活性和功能等研究工作的基礎,而礙于解析晶體的技術原因,利用計算機同源建模成為一種經濟而又具有一定準確性的方法[14]。但目前結構明確的植物GPT僅有來源于大麥(Hordeumvulgare)的GPT(PDB登錄號3TCM)。
利用分子動力學模擬得到目標分子來觀察其結構合理性可大大提高研究材料的可靠性。采用組氨酸標簽可通過更改基因序列將帶電序列加入到多肽鏈中,大大減輕了活性聚合的難度,提高了生物相容性和可降解性,因此組氨酸序列也常常和對環(huán)境敏感的嵌段活性聚合于某種肽鏈兩端,形成A-C-B三嵌段聚合物,利用其在不同環(huán)境釋放速度不同的特點制成緩釋劑[15-16]。通過對三嵌段聚合物進行分子動力學模擬可了解其溶解度等相關的物理性質,同時也可得知組氨酸標簽對肽段結構的影響,為進一步的實驗研究篩選可執(zhí)行方案,且此方法已在提純蛋白質的研究中被使用[17]。
本研究中使用大豆谷丙轉氨酶的可能序列(NP_001237567.2)作為靶序列,可以構建出與其他來源的GPT結構相似的模型,且該模型在模擬溶液中能夠形成合理的構象,表現出與谷氨酸、丙酮酸、α-酮戊二酸和丙氨酸良好的對接能力,均證實了其作為大豆谷丙轉氨酶的三維模型的合理性。對溶液態(tài)模型B的活性位點及結構域的分析將為繼續(xù)深入研究大豆GPT乃至植物GPT的結構功能奠定前期工作基礎。同時,該序列在C端連接組氨酸標簽后,可能表達形成分子量約為54.57 ku、等電點約為6.51、組氨酸標簽裸露且遠離活性位點的單體蛋白質,證實了通過親和色譜實現后續(xù)GmGPT的表達、純化的可行性。
綜上,GmGPT三維模型的構建對于豐富資源匱乏的植物GPT三維模型有著重要的意義,也能為大豆的氨基酸代謝的相關基礎研究提供參考。