謝振華,田繼微
(1.清華大學(xué)深圳研究生院健康科學(xué)和技術(shù)重點(diǎn)實驗室,廣東深圳518055;2.中南大學(xué)研究生院隆平分院,湖南長沙410083)
利用Excel對粳稻全蛋白質(zhì)組蛋白序列進(jìn)行有序化管理
謝振華1,田繼微2
(1.清華大學(xué)深圳研究生院健康科學(xué)和技術(shù)重點(diǎn)實驗室,廣東深圳518055;2.中南大學(xué)研究生院隆平分院,湖南長沙410083)
利用Excel具有的數(shù)據(jù)管理功能實現(xiàn)粳稻全蛋白質(zhì)組所有蛋白序列有序化管理,進(jìn)而實現(xiàn)對粳稻全蛋白質(zhì)組蛋白序列排序和歸類。本研究將粳稻全蛋白質(zhì)組48 905條蛋白序列的24個理化性質(zhì)參數(shù)、蛋白名稱、蛋白登錄號碼和蛋白序列組成數(shù)據(jù)矩陣,導(dǎo)入Excel中。根據(jù)蛋白不同理化性質(zhì)參數(shù)進(jìn)行排序,篩選得到特定理化性質(zhì)的蛋白;根據(jù)蛋白名稱排序,實現(xiàn)蛋白質(zhì)家族成員和蛋白選擇剪切變異體的系統(tǒng)歸類排序;通過對粳稻全蛋白質(zhì)組理化參數(shù)分布的可視化,促進(jìn)對粳稻全蛋白質(zhì)組更直觀和全面的認(rèn)識。
粳稻;全蛋白質(zhì)組;蛋白;氨基酸;等電點(diǎn);疏水性
謝振華,田繼微.利用Excel對粳稻全蛋白質(zhì)組蛋白序列進(jìn)行有序化管理[J/OL].大麥與谷類科學(xué),2017,34(4):10-15[2017-07-26]. http://kns.cnki.net/kcms/detail/32.1769.s.20170726.1859.005.html.
水稻是世界上栽種最廣泛的谷類作物之一,其基因組相對較小,因此成為第一個完成全基因組測序的農(nóng)作物,也是遺傳分析、基因克隆及功能研究的理想模式植物[1-2]?;谒镜鞍踪|(zhì)組學(xué)研究數(shù)據(jù),為科研人員提供有關(guān)作物對主要環(huán)境脅迫和病原反應(yīng)有價值的信息,這可能會對提高作物產(chǎn)量和質(zhì)量有所幫助,有利于解決全球糧食安全問題[3-4]。
一個生物全基因組上可能表達(dá)的所有蛋白質(zhì)序列構(gòu)成一個全蛋白質(zhì)組[5-6]。隨著大規(guī)模測序的發(fā)展,有1 171個真核生物的全蛋白質(zhì)組信息已公布并供科研人員下載。全蛋白質(zhì)組包涵了豐富的生物信息,通過對全蛋白質(zhì)組分析,我們可以進(jìn)行物種進(jìn)化歷史的研究[6-7]。然而,含有幾千至幾萬條蛋白序列的全蛋白質(zhì)組的處理對普通的生物學(xué)家而言是艱難的任務(wù),導(dǎo)致目前對全蛋白質(zhì)組的數(shù)據(jù)應(yīng)用不多。
蛋白質(zhì)疏水性、等電點(diǎn)(pI)、序列長度和分子量是獨(dú)立于蛋白序列的信息,僅依賴于蛋白質(zhì)的氨基酸組成。蛋白質(zhì)的氨基酸組成和這些理化性質(zhì)可以從氨基酸序列中計算得到,并被廣泛應(yīng)用于蛋白質(zhì)的結(jié)構(gòu)、功能、分類、蛋白-蛋白相互作用和蛋白質(zhì)亞細(xì)胞定位等預(yù)測分析中[8-11]。以質(zhì)譜(MS)為基礎(chǔ)的鳥槍法是非常強(qiáng)大的蛋白質(zhì)組分析方法,該方法在很大程度上依賴于全蛋白質(zhì)組數(shù)據(jù)庫[12-13];而常用的雙向電泳方法也有一定的局限性,它很難分開非常酸性的、堿性的、小的、大的和疏水性蛋白[14]。通過相關(guān)方法的研究,進(jìn)而實現(xiàn)對全蛋白質(zhì)組的蛋白質(zhì)序列理化性質(zhì)的全面分析和展示,將促進(jìn)蛋白質(zhì)組學(xué)的發(fā)展。
本研究將粳稻全蛋白質(zhì)組48 905條蛋白序列的理化性質(zhì)參數(shù)作為坐標(biāo)參數(shù),將相應(yīng)的蛋白登錄號碼作為坐標(biāo)地址,并與相應(yīng)的蛋白序列和蛋白名稱輸入數(shù)據(jù)矩陣同一行的不同單元格內(nèi),將每個蛋白名稱、蛋白登錄號碼和蛋白序列與這些數(shù)據(jù)進(jìn)行綁定,構(gòu)成全蛋白質(zhì)組的數(shù)據(jù)矩陣。全蛋白質(zhì)組的數(shù)據(jù)矩陣導(dǎo)入Excel生成用于全蛋白質(zhì)組管理的電子表格,利用Excel本身具有的數(shù)據(jù)管理功能實現(xiàn)全蛋白質(zhì)組所有蛋白序列的有序化管理,進(jìn)而實現(xiàn)對全蛋白質(zhì)組中蛋白序列的排序和歸類。
1.1 粳稻全蛋白質(zhì)組Excel表格的建立
將粳稻全蛋白質(zhì)組以FASTA格式從蛋白質(zhì)資源庫(universal protein resource,UniProt)下載[5]。用R語言從FASTA格式的粳稻全蛋白質(zhì)組數(shù)據(jù)中提取出蛋白名稱、蛋白登錄號碼和蛋白序列,然后通過去掉起始甲硫氨酸的方式生成蛋白MTS(Met-truncatedsequences)序列,并計算出所有MTS序列的氨基酸豐度和序列長度;用propas軟件[15]和在線工具Compute pI/Mwtool(http://web.expasy.org/compute_pi/)計算出所有MTS序列的疏水性、等電點(diǎn)(pI)和分子量。最終將粳稻全蛋白質(zhì)組48 905條蛋白序列的理化性質(zhì)參數(shù)、蛋白名稱、蛋白登錄號碼和蛋白序列組成數(shù)據(jù)矩陣,并導(dǎo)入Excel中,得到的電子表格稱為“粳稻全蛋白質(zhì)組數(shù)據(jù)表格”,并以附件形式在線存放(http://pan.baidu.com/s/1o8NrgJg)。
1.2 粳稻全蛋白質(zhì)組有序化管理
通過對粳稻全蛋白質(zhì)組Excel表格中數(shù)據(jù)進(jìn)行排序,具體可分別以氨基酸豐度、序列長度、分子量、等電點(diǎn)(pI)和蛋白質(zhì)的疏水性等參數(shù)數(shù)值大小進(jìn)行排序,同時可完成以蛋白名稱、蛋白登錄號碼和蛋白序列按字母順序進(jìn)行排序的粳稻全蛋白質(zhì)組。
在對第1個理化性質(zhì)參數(shù)進(jìn)行排序之后,可以刪除選定值以下或以上的數(shù)據(jù)行,然后對第2個理化性質(zhì)參數(shù)進(jìn)行排序,再刪除選定值以下或以上的數(shù)據(jù)行,逐一完成不同參數(shù)的排序和數(shù)據(jù)排除,就可以從粳稻全蛋白質(zhì)組中篩選出具備特定理化性質(zhì)參數(shù)的全部蛋白質(zhì)。
利用Excel表格的查找功能,對粳稻全蛋白質(zhì)組實現(xiàn)檢索和定位功能??梢杂玫鞍踪|(zhì)的名稱、部分名稱、蛋白登錄號碼或一段蛋白序列進(jìn)行檢索,在粳稻全蛋白質(zhì)組數(shù)據(jù)表格和重新排序的表格中定位要檢索的蛋白。
1.3 粳稻全蛋白質(zhì)組中蛋白理化性質(zhì)分布的可視化
以粳稻全蛋白質(zhì)組Excel表格中的數(shù)據(jù)為基礎(chǔ),用R語言可視化粳稻全蛋白質(zhì)組的理化性質(zhì)分布。在視圖上,利用綠色的loess曲線和紅色平均線來顯示粳稻全蛋白質(zhì)組理化性質(zhì)的分布趨勢。
2.1 粳稻全蛋白質(zhì)組Excel表格的組織
粳稻全蛋白質(zhì)組Excel表格有48 906行和28列,包含一個標(biāo)題行和標(biāo)題列,一個蛋白所有數(shù)據(jù)存放在同一行內(nèi),標(biāo)題行上標(biāo)題分別代表目標(biāo)蛋白在全蛋白質(zhì)組中的順序號(NO.)、蛋白MTS序列各氨基酸 (Ala、Cys、Asp、Glu、Phe、Gly、His、Ile、Lys、Leu、Met、Asn、Pro、Gln、Arg、Ser、Thr、Val、Trp、Tyr)豐度、蛋白MTS序列的長度(SL)、蛋白MTS序列分子量(MW)、蛋白MTS序列等電點(diǎn)(pI)、蛋白MTS序列疏水性值(HP)、蛋白名稱(Name)、蛋白注釋(Annotation)和相應(yīng)MTS序列(MTS)。
粳稻全蛋白質(zhì)組中 Ala、Cys、Asp、Glu、Phe、Gly、His、Ile、Lys、Leu、Met、Asn、Pro、Gln、Arg、Ser、Thr、Val、Trp、Tyr的豐度,SL、MW、pI、HP的平均值分別為:0.101 6、0.021 3、0.049 9、0.056 0、0.033 6、0.080 1、0.026 9、0.039 3、0.042 5、0.091 4、0.019 3、0.029 8、0.063 0、0.032 4、0.077 1、0.083 0、0.047 8、0.068 2、0.014 2、0.022 5、305.2、33 470、7.87、-0.283。
2.2 粳稻全蛋白質(zhì)組依據(jù)24個理化性質(zhì)進(jìn)行排序
通過對粳稻全蛋白質(zhì)組Excel表格中Ala、Cys、Asp、Glu、Phe、Gly、His、Ile、Lys、Leu、Met、Asn、Pro、Gln、Arg、Ser、Thr、Val、Trp、Tyr的豐度,SL、MW、pI和HP所示的列分別排序,快速地實現(xiàn)對粳稻全蛋白質(zhì)組48 905條蛋白MTS序列的各氨基酸豐度、序列的長度、分子量、等電點(diǎn)和疏水性值實現(xiàn)有序化管理。
通過對粳稻全蛋白質(zhì)組有序化管理,發(fā)現(xiàn)5個粳稻蛋白的分子量和等電點(diǎn)是零值,這是因為它們的序列中含有不明確的氨基酸字符(x)所導(dǎo)致,所以這5個粳稻蛋白其他的理化性質(zhì)參數(shù)也是不準(zhǔn)確的。
通過粳稻全蛋白質(zhì)組Excel表,以篩選富含賴氨酸(Lys)的蛋白為例,對粳稻全蛋白質(zhì)組Excel表格中Lys列進(jìn)行降序排序,快速系統(tǒng)地篩選出了粳稻中所有高賴氨酸蛋白,同時排序結(jié)果表明賴氨酸豐度≥18%的蛋白有95個,其中氨基酸長度>200的高賴氨酸蛋白有9個,分別是:Neurofilament triplet M protein-like protein(Q8LHS0)、Histone-like protein(Q851P9)、Os07g0184800 protein(Q8H4Z0)、Os05g0227600protein(Q84PC5)、Os05g0226900 protein (Q6AVC2)、Expressed protein (B7EFD0)、Expressed protein(Q6AST9)、Os01g0924900 protein(Fragment) (A0A0P0VC90)、Os03g0352300 protein (Fragment) (A0A0P0VY77)。其意義在于快速篩選到高賴氨酸蛋白,這種蛋白不僅具有營養(yǎng)和商業(yè)價值,也是建立高賴氨酸含量的轉(zhuǎn)基因谷物的重要材料[16-17]。
小蛋白(≤100或200個氨基酸長度)廣泛存在于古細(xì)菌、細(xì)菌、真核生物的全蛋白質(zhì)組中,具有重要的生物學(xué)功能[18-19]。但至今未見系統(tǒng)地將全蛋白質(zhì)組中所有小蛋白排列出來的方法。在本研究結(jié)果中,通過對粳稻全蛋白質(zhì)組Excel表格中SL列進(jìn)行升序排序,快速而系統(tǒng)地篩選出粳稻7 636個氨基酸長度≤100的小蛋白,21 650個氨基酸長度≤200的小蛋白。通過對粳稻全蛋白質(zhì)組Excel表格中pI列進(jìn)行排序,快速而系統(tǒng)地排列出粳稻4 547個pI≤5的酸性蛋白和8 872個pI≥10的堿性蛋白。這些結(jié)果為在粳稻蛋白質(zhì)組學(xué)中研究設(shè)計更好的制備和分離條件提供了重要信息[20-22]。
2.3 粳稻全蛋白質(zhì)組依據(jù)蛋白名稱、登錄號碼和序列進(jìn)行歸類排序
通過對粳稻全蛋白質(zhì)組Excel表格中Name、Annotation和MTS所示的列分別排序,快速地實現(xiàn)對粳稻全蛋白質(zhì)組48 905條蛋白序列的蛋白名稱、蛋白登錄號碼和蛋白序列按字母順序進(jìn)行的排序。
通過對蛋白名稱的字母排序,可以對蛋白質(zhì)家族成員和蛋白選擇剪切變異體進(jìn)行系統(tǒng)的歸類排序,并迅速發(fā)現(xiàn)一些蛋白質(zhì)家族成員和蛋白選擇剪切變異體的序列長度、等電點(diǎn)和疏水性值的相關(guān)信息。對粳稻全蛋白質(zhì)組蛋白質(zhì)家族成員進(jìn)行系統(tǒng)歸類排序,可促進(jìn)我們對粳稻全蛋白質(zhì)組蛋白質(zhì)家族的整體認(rèn)識和家族成員的詳細(xì)了解。
通過對蛋白氨基酸序列的排序,一些蛋白質(zhì)家族成員或蛋白選擇剪切變異體通常可以分組在一起,因為它們的N-末端氨基酸序列是相同的,但一些蛋白質(zhì)家族成員或蛋白選擇剪切變異體具有不同的N-末端氨基酸序列,它們分散地分布在對蛋白氨基酸序列排序后的表格中。
2.4 對粳稻全蛋白質(zhì)組數(shù)據(jù)矩陣進(jìn)行定位
利用Excel表格查找功能,可以用一段蛋白序列、蛋白名稱或部分名稱對粳稻全蛋白質(zhì)組數(shù)據(jù)矩陣進(jìn)行檢索,檢索的結(jié)果可以顯示出目標(biāo)蛋白在數(shù)據(jù)矩陣中的位置,從而實現(xiàn)定位功能。通過一段蛋白序列、蛋白名稱或部分名稱進(jìn)行搜索定位,在按字母順序排序的粳稻全蛋白質(zhì)組Excel表格中,對任何蛋白家族或蛋白選擇剪切變異體都能夠快速識別和定位。
圖1 粳稻全蛋白質(zhì)組等電點(diǎn)的一維分布
2.5 粳稻全蛋白質(zhì)組理化參數(shù)分布的可視化
為了更直觀地顯示粳稻全蛋白質(zhì)組理化性質(zhì)的分布,可對粳稻全蛋白質(zhì)組的任何一個或兩個理化參數(shù)的分布進(jìn)行可視化。本研究僅展示等電點(diǎn)的一維分布(圖1)、疏水性值的一維分布(圖2)以及等電點(diǎn)-疏水性值二維分布(圖3)。本文以Cys、Glu、Lys、Pro這4個氨基酸為例,均以蛋白序列長度-氨基酸豐度作二維分布圖(圖4),全部氨基酸的二維分布圖組合成“序列長度-氨基酸豐度的二維分布圖集”,以附件形式在線存放(http://pan.baidu. com/s/1o8NrgJg)。
全蛋白質(zhì)組等電點(diǎn)的一維分布模式曾有報道[23-24]。本研究發(fā)現(xiàn)粳稻全蛋白質(zhì)組的等電點(diǎn)的一維分布呈現(xiàn)3峰模式,與文獻(xiàn)[24]中水稻蛋白質(zhì)組等電點(diǎn)的一維分布模式有些差異,該文獻(xiàn)水稻蛋白質(zhì)組等電點(diǎn)的一維分布模式圖中,在pI=8左右呈現(xiàn)一個小尖峰,在pI=11.3左右呈現(xiàn)一個小而平緩的寬峰,而本研究的圖1中,在pI=8左右沒有明顯的峰形,在pI=11.0左右呈現(xiàn)一個中等的寬峰。這種差異源自下載的數(shù)據(jù)來自不同的數(shù)據(jù)庫,文獻(xiàn)[24]中水稻蛋白質(zhì)組有83 159條蛋白序列。
本研究粳稻全蛋白質(zhì)組的疏水性值的一維分布呈現(xiàn)單峰模式(圖2)。粳稻全蛋白質(zhì)組的等電點(diǎn)-疏水性值顯示,在pI=11.0左右的堿性蛋白親水性較好(圖3)。
圖4中4個蛋白序列長度(氨基酸的數(shù)目)-氨基酸豐度二維分布圖尤如指紋圖,全部20個氨基酸的蛋白序列長度-氨基酸豐度二維分布圖組成粳稻全蛋白質(zhì)組的指紋圖譜。
圖2 粳稻全蛋白質(zhì)組疏水性值的一維分布
圖3 粳稻全蛋白質(zhì)組等電點(diǎn)-疏水性值二維分布
圖4 粳稻全蛋白質(zhì)組4個氨基酸的蛋白序列長度-氨基酸豐度二維分布
網(wǎng)上生物數(shù)據(jù)庫將蛋白質(zhì)組中各個蛋白名稱、蛋白登錄號碼和蛋白序列按一定格式組成一個個條目(entries),可以下載的一個物種全蛋白質(zhì)組數(shù)據(jù)就是這個物種的所有蛋白條目的集合,由于條目總數(shù)達(dá)幾千至幾萬,研究人員難以對其整體把握。本研究將粳稻全蛋白質(zhì)組48 905條蛋白序列通過24個理化性質(zhì)參數(shù)、蛋白名稱、登錄號碼和序列進(jìn)行系統(tǒng)的歸類排序,使它們不但構(gòu)成一個有機(jī)的整體,而且可以對這個整體進(jìn)行操作。本方法可以讓一個普通的生物學(xué)家對含有48 905條蛋白序列的粳稻全蛋白質(zhì)組進(jìn)行分析和處理,促進(jìn)了研究人員對粳稻全蛋白質(zhì)組更全面和深入的認(rèn)識。這個粳稻全蛋白質(zhì)組Excel表格還可以進(jìn)行擴(kuò)展,可把粳稻全蛋白質(zhì)組所有蛋白相關(guān)的其他數(shù)字和文字信息整合到這個粳稻全蛋白質(zhì)組Excel表格中,并對數(shù)字信息進(jìn)行排序,也可對文字信息進(jìn)行系統(tǒng)的歸類排序。綜上所述,采用Excel對粳稻全蛋白質(zhì)組可以很好地進(jìn)行有序化管理,該方法也可以應(yīng)用到其他物種的全蛋白質(zhì)組的管理與研究中。
[1]謝放鳴,彭少兵.雜交水稻在國外的發(fā)展歷程與展望[J].科學(xué)通報,2016,61(35):3858-3868.
[2]SREENIVA N,BUTARDOV MJ R,MISRA G,et al.Designing climate-resilient rice with ideal grain quality suited for high-temperature stress[J].Journal of Experimental Botany, 2015,66(7):1737-1748.
[3]SINGH R,JWA N S.Understanding the responses of rice to environmental stress using proteomics[J].Journal of Proteome Research,2013,12(11):4652-4669.
[4]ZOUJ,LIUC,CHENX.Proteomics of rice in response to heat stress and advances in genetic engineering for heat tolerance in rice[J].Plant Cell Reports,2011,30(12):2155-2165.
[5]UP CONSORTIUM.Reorganizing the protein space at the U-niversal Protein Resource (UniProt)[J].Nucleic Acids Research,2012,40(Database issue):D71-75.
[6]MULDERNJ,KERSEY P,PRUESS M,et al.In silico characterization of proteins:UniProt,InterPro and Integr8[J]. Molecular Biotechnology,2008,38(2):165-177.
[7]CAFFREY B E,WILLIAMS T A,JIANG X,et al.Proteome-wide analysis of functional divergence in bacteria:exploring a host of ecological adaptations[J].PLoS One,2012,7(4): e35659.
[8]ROY S,MARTINEZD,PLATEROH,et al.Exploiting amino acid composition for predicting protein-protein interactions[J]. PLoS One,2009,4(11):e7813.
[9]GOODDM,MAMDOH A,BUDAMGUNTA H,et al.In silico proteome-wide aminoaCid and elemental composition(PACE) analysis of expression proteomics data provides a fingerprint of dominant metabolic processes[J].Genomics,Proteomics& Bioinformatics,2013,11(4):219-229.
[10]HUANG CH,CHOUS Y,NG K L.Improving protein complex classification accuracy using amino acid composition profile[J].Computers in Biology and Medicine,2013,43(9): 1196-1204.
[11]HAYATM,KHANA.WRF-TMH:predicting transmembrane helix by fusing composition index and physicochemical properties ofaminoacids[J].AminoAcids 2013,44(5):1317-1328.
[12]ALHAIDERA A,BAYOUMY N,ARGOE,et al.Survey of the camel urinary proteome by shotgun proteomics using a multiple database search strategy[J].Proteomics,2012,12(22): 3403-3406.
[13]MARTINS-de-SOUZA D,GUEST P C,GUEST F L,et al. Characterization of the human primary visual cortex and cerebellum proteomes using shotgun mass spectrometry-data-independent analyses[J].Proteomics,2012,12(3):500-504.
[14]RABILLOUDT,CHEVALLETM,LUCHE S,et al.Two-dimensional gel electrophoresis in proteomics:Past,present and future[J].Journal of Proteomics,2010,73(11):2064-2077.
[15]WUS,ZHUY.ProPAS:standalone software to analyze protein properties[J].Bioinformation,2012,8(3):167-169.
[16]孫曉波,房 瑞,余桂紅,等.辣椒高賴氨酸蛋白基因Cflr全長cDNA的克隆及其組織表達(dá)特征 [J].園藝學(xué)報, 2008,35(9):1310-1316.
[17]YUE J,LI C,ZHAOQ,et al.Seed-specific expression of a lysine-rich protein gene,GhLRP,fromcotton significantly increases the lysine content in maize seeds[J].International Journal of Molecular Sciences,2014,15(4):5350-5365.
[18]SUM,LING Y,YUJ,et al.Small proteins:untapped area of potential biological importance[J].Frontiers in Genetics,2013 (4):286.
[19]YANGX,TSCHAPLINSKI TJ,HURSTGB,et al.Discovery and annotation of small proteins using genomics,proteomics, and computational approaches[J].Genome Research,2011,21 (4):634-641.
[20]URQUHART B L,CORDWELL S J,HUMPHERY-SMITH I.Comparison of predicted and observed properties of proteins encoded in the genome of Mycobacteriumtuberculosis H37Rv [J].Biochemical and Biophysical Research Communications, 1998,253(1):70-79.
[21]WUWW,WANGG,YUMJ,et al.Identification and quantification of basic and acidic proteins using solution-based two-dimensionalprotein fractionation and label-freeor 18O-labeling mass spectrometry[J].Journal of Proteome Research,2007,6(7):2447-2459.
[22]ADHIK A S,MANTHENA P V,SAJWANK,et al.A unified method for purification of basic proteins[J].Analytical Biochemistry,2010,400(2):203-206.
[23]WEILLER G F,CARAUX G,SYLVSETER N.The modal distribution of protein isoelectric points reflects amino acid properties rather than sequence evolution [J].Proteomics, 2004,4(4):943-949.
[24]WUS,WANP,LI J,et al.Multi-modality of pI distribution in whole proteome[J].Proteomics,2006,6(2):449-455.
·簡訊與信息·
本刊加入有關(guān)數(shù)據(jù)庫的特別聲明
為了適應(yīng)我國信息化建設(shè)的需要和擴(kuò)大作者學(xué)術(shù)交流渠道,實現(xiàn)期刊編輯、出版工作的網(wǎng)絡(luò)化與數(shù)字化,提高作者所發(fā)表論文的被引頻次與影響力,本刊已加入《中國學(xué)術(shù)期刊(光盤)》、“中國期刊網(wǎng)”、“萬方數(shù)據(jù)-數(shù)字化期刊群”、“重慶維普”:“中文期刊數(shù)據(jù)庫”與超星期刊“域出版”平臺。作者無需支付網(wǎng)絡(luò)編審費(fèi)。作者著作權(quán)使用費(fèi)與本刊稿酬由本刊編輯部一次性給付作者。如有作者不同意將文章編入上述數(shù)據(jù)庫,請在來稿時聲明,本刊將作適當(dāng)處理。所有刊載文獻(xiàn)以各種形式轉(zhuǎn)載時請注明來源于本刊。
《大麥與谷類科學(xué)》雜志編輯部
Using an Excel Table to Orderly Manage All 48905 Proteins in the Complete Proteome of Japonica Rice
XIE Zhen-hua1,TIAN Ji-Wei2
(1.The Shenzhen KeyLaboratoryofHealth Sciencesand Technology,Graduate SchoolatShenzhen,Tsinghua University,Shenzhen 518055,China;2.LongpingBranch ofGraduate School,CentralSouth University,Changsha,410083,China)
Owing to its function of data management,Excel can be used to sort and cluster all protein sequences of the complete proteome of japonica rice.In this study,a data matrix was constructed,comprising 24 physicochemical parameters,names,accession numbers,and sequences of 48 905 proteins in the complete proteome of japonica rice;and this data matrix has been imported into an Excel table for orderly management,clustering,and querying.Any proteins with some particular physicochemical features can be screened out from the complete proteome of japonica rice by orderly management;all members of a protein family or protein splice variants can be systematically clustered by alphabetically sorting the name column.Such an Excel table provides an overview of the complete proteome of japonica rice by visualizing the distribution of the physicochemical parameters of all proteins.Therefore,this study creates a tool that is instrumental in comprehensive and in-depth understanding of the complete proteome of Japonica rice.
Japonica rice;Complete proteome;Protein;Amino acid;Isoelectric point;Hydrophobicity
Q51
A
1673-6486-20170333
2017-03-07
深圳市科技創(chuàng)新委員會資助項目(JCYJ201404171158402 67和JCYJ20150518162154828)。
謝振華(1964—),男,博士,講師,主要從事細(xì)胞分子生物學(xué)研究。E-mail:xiezh@sz.tsinghua.edu.cn。