陳海明 李方明 張 兵 劉祖明 毛貴川 王興林 劉金偉 楊紹華
1.貴州省黔西南州人民醫(yī)院遵義醫(yī)學院第七附屬醫(yī)院,貴州興義562400;2.遵義醫(yī)學院附屬醫(yī)院貴州省細胞工程實驗室,貴州遵義563000;3.??谑斜6悈^(qū)遠兮細胞分子技術應用研發(fā)有限公司,海南???70000
人preproEGF的mRNA/cDNA序列中SNPs及生物信息學分布探究
陳海明1李方明1張 兵1劉祖明1毛貴川1王興林1劉金偉2楊紹華3
1.貴州省黔西南州人民醫(yī)院遵義醫(yī)學院第七附屬醫(yī)院,貴州興義562400;2.遵義醫(yī)學院附屬醫(yī)院貴州省細胞工程實驗室,貴州遵義563000;3.海口市保稅區(qū)遠兮細胞分子技術應用研發(fā)有限公司,海南海口570000
目的探明單核苷酸多態(tài)(SNPs)在人表皮生長因子前體蛋白(preproEGF)mRNA/cDNA序列中的分布狀況。方法憑借美國生物信息中心(NCBI)平臺和單核苷酸多態(tài)資料庫(dbSNP)檢索、分析、標注和圖解相關SNPs在人preproEGF多肽mRNA/cDNA序列中的分布位點和生物信息學特征。結果分布在人腎源和其他組織源preproEGF多肽mRNA/cDNA序列中的SNPs總計有106個,其中84個同位SNPs大多數(shù)以外顯子6~8、11~12、16~19和22~23為間隔并集中歸位于第1~5、10、13~15、20~21、24外顯子序列中,另外的22個非同位SNPs大多數(shù)以密集叢簇為特征而各自分布在兩類序列3'端非編碼序列中,但個別例外則單獨歸位于腎源類序列的第9外顯子中。結論SNPs在人兩類preproEGF多肽mRNA/cDNA序列中的生物信息學分布、特征和圖示對于SNP與疾病或性狀的相關性研究及課題設計頗具參考價值。
同位單核苷酸多態(tài);人表皮生長因子前體蛋白;非同位單核苷酸多態(tài);生物信息學
人表皮生長因子前體蛋白(prepro-epidermal growth factor,preproEGF)mRNA/cDNA序列由24個外顯子組成,長約5 kb,編碼一條1207個氨基酸的蛋白多肽鏈,該肽鏈在翻譯生成后經(jīng)蛋白酶剪切加工形成的成熟表皮生長因子(一段53個氨基酸多肽)對人體表皮細胞的生長、分化和代謝起著十分重要的作用[1]。也許由于mRNA序列轉錄的選擇性剪接加工等生物學機制的緣故,基因在表達時常常會出現(xiàn)蛋白多肽變體,目前已知的preproEGF變體有腎源和其他組織源兩類。另一方面,preproEGF基因序列的遺傳多態(tài),特別是單核苷酸多態(tài)(single nucleotide polymorphysims,SNPs)也可致其出現(xiàn)變體或功能改變,還可引起疾病的發(fā)生[2-3],例如,迄今的研究已表明,分布在preproEGF基因第61 bp位點的SNP(A/G)與歐美人某些腫瘤例如黑色素瘤等發(fā)生具有相關性[4]??梢娚钊胩矫鱏NPs及其在preproEGF基因或mRNA/cDNA中的分布情況對于探索疾病相關性的研究頗具指導價值和醫(yī)學意義。至目前為止,SNPs在preproEGF基因組DNA序列內(nèi)之生物信息學分布及其在第20、21外顯子和其間內(nèi)含子區(qū)段中呈現(xiàn)稀疏分布的特點于近期已見報道[5-6],但其在mRNA/cDNA序列中的情況如何則尚待探明。本研究擬借助NCBI的生物信息學平臺對SNPs及其在preproEGF核酸或mRNA/cDNA序列中的分布進行分析定位和標注圖解,為進一步的疾病相關性研究和醫(yī)學應用提供基礎。
1.1 研究對象
人preproEGF基因和蛋白多肽及其變體的mRNA/cDNA序列。
1.2 儀器和信息資源
計算機(聯(lián)想公司)、電訊寬帶網(wǎng)路(中國電訊)、NCBI的生物信息程序和dbSNP。
1.3 方法
從電訊寬帶登錄網(wǎng)址www.nlm.nih.gov,參照研究介紹的方法檢索分析和定位注釋存在于preproEGF多肽及其變體mRNA/cDNA序列中的SNPs[7-9]。
經(jīng)Blast和Entrez SNP檢索到在人4號染色體上分兩類preproEGF多肽的mRNA/cDNA序列中存在有不同數(shù)目和種類的SNPs,可依其rs#從5'端到3'端行順序編號并歸位其在核酸序列中的位點,同時計算各相鄰SNP位點之間的距離。見表1、2。
由表1、2可見,編號于人兩類preproEGF多肽mRNA/cDNA序列中的SNPs在種類數(shù)目上有所不同,即腎源類SNPs為51個,而其他組織源類卻為55個,總計106個SNPs。進一步觀察對比這兩類SNPs可見,其大多數(shù)(84個或42對)是位點及種類皆同一或同位的,主要分布在外顯子序列中;而少數(shù)(腎源類9個,其他組織源類13個)卻表現(xiàn)出非同位或各自不相同的,主要分布在3'端非編碼序列中。合并表1和表2的資料信息,可繪制成SNPs及其在兩類preproEGF多肽mRNA/cDNA序列中的分布圖。見圖1(封三)。
由圖1(封三)可見,在第1~5、10、13~15、20~21和第24外顯子中總計分布有30對同位點SNPs;在第9外顯子中分布有1個腎源類非同位點SNP;在第6~8、11~12、16~19和22~23外顯子中沒有SNP分布;7個腎源類非同位點SNPs或12個其他組織源類非同位點SNPs分別分布在其3'端非編碼序列中。
表1 除腎源類外人其他組織源類preproEGF多肽mRNA/cDNA序列中的SNPs分布
表2 人腎源類preproEGF多肽mRNA/cDNA序列中的SNPs分布
本研究應用生物信息學技術對存在于人preproEGF多肽mRNA/cDNA序列中的SNP及其分布情況進行了檢索分析,結果得到共計106個位點及其SNPs分別分布于兩類(腎源和其他組織源)mRNA/cDNA序列中。深入對比觀察這些結果首先可見,分布于兩類序列的42對共計84個SNPs因其相鄰SNP間距相等而初步顯示彼此的SNP位點及種類(RefSNP和亞SNP)皆具同一性;如果對比分析表1、2中的SNP位點也不難發(fā)現(xiàn)42對SNPs在兩類mRNA/cDNA序列間之位點差距皆為16 bp,這說明分布于兩類序列中的這些SNPs確實是位點及種類相同或同一的,本文將其簡稱為同位SNP。其次,觀察分析結果也可見表1、2中有22個SNPs因其相鄰SNP間距既不相等也不遵循兩序列間相應位點之差距為16 bp的規(guī)律并且還數(shù)目不等地分別分布于各自歸位的mRNA/cDNA序列中而表現(xiàn)出各自不同的位點差異性,對此本文稱其為非同位SNP。
觀察圖1(封三)可見,分布在mRNA/cDNA序列編碼區(qū)的SNPs絕大多數(shù)(97%)都是同位SNP對,這可能是為了維穩(wěn)兩類preproEGF多肽的遺傳需要所決定的,因為依靠同位SNPs彼此間的高度同一性,方可確保由這些SNPs組成的密碼子在分別編碼兩條蛋白多肽鏈時不會引起相應位點的氨基酸(AA)彼此出現(xiàn)差異從而改變蛋白多肽之結構和功能。然而,分布在序列編碼區(qū)的個別SNP也有不是同位SNP的例外情況,例如,第9外顯子內(nèi)的015號SNP(R-1816)即不是同位SNP,而是一個屬于腎源類的非同位SNP。由于這個非同位SNP是位于蛋白多肽編碼區(qū)內(nèi),因而頗有可能令其編碼的AA有別于其他組織源preproEGF多肽序列相應位點的AA。一方面造成腎源類preproEGF多肽在結構或生物學特性方面有別于其他組織源類preproEGF多肽;另一方面因為造成蛋白多肽的結構和功能改變而導致疾病發(fā)生。盡管有如此可能的風險,但由于這個非同位SNP所歸位的第9外顯子并不參與編碼53個AA多肽的成熟EGF,因而不太可能對成熟EGF的結構和生物活性造成影響或帶來改變。不過,由于第9外顯子參與編碼一段類似EGF的同源多肽和一段低密度脂蛋白(LDL)受體同源肽段,因而這個非同位SNP還是有可能影響到腎源類preproEGF多肽與其他組織源類preproEGF多肽出現(xiàn)結構和生物學特性差異的[1,10]。當然事實是否果真如此迄今仍缺乏直接的證據(jù),不過已有相似的例子見于研究報道,研究發(fā)現(xiàn),位于腎源類preproEGF多肽mRNA/cDNA序列第22外顯子中的一個單核苷酸由C變成了T,也即C3209T,因而使得preproEGF多肽鏈第1070位AA也相應地從脯氨酸變成了亮AA,即P1070L;同時,該研究還發(fā)現(xiàn)由于這個AA的改變導致了腎源preproEGF多肽維持體內(nèi)Mg2+平衡之生物學功能隨之改變進而引發(fā)了低Mg2+血癥[11]。此外,也有報道觀察到:腎源preproEGF多肽加工生成成熟EGF的場所是位于細胞之外,而其他組織源(例如下頜下腺、胰腺、前列腺等組織)的preproEGF加工生成成熟EGF則是在細胞內(nèi)完成的;反之,在頜下腺、胰腺和乳腺等組織,preproEGF可被剪切加工生成成熟的EGF,但是在腎臟,preproEGF則不被剪切加工生成EGF[1]。據(jù)此推測,兩類preproEGF多肽之間所展示的這些生物學特性差異也許會有一些SNP的影響因素在里面。其次,觀察圖1(封三)也可見分布在mRNA/cDNA序列非編碼區(qū)的SNPs大多不是同位而是非同位SNPs。然而,一個有趣的現(xiàn)象是這些非同位SNPs極少分布在序列5'端非編碼區(qū),而是大多集中分布在了3'端非編碼區(qū),具體的分布情況是:在兩類mRNA/cDNA序列之5'端非編碼區(qū)可見腎源類或其他組織源類SNPs各自僅分布了1個非同位SNP;而在序列之3'端非編碼區(qū)腎源類SNPs卻集中分布有7個非同位SNPs,其他組織源類更是集中分布了12個非同位SNPs。至于這些非同位SNPs的集中分布對preproEGF多肽有何生物學意義目前還不十分清楚,不過如果依據(jù)DNA元素百科全書研究項目對非編碼核酸序列之生物學功能的發(fā)現(xiàn)和理解并且結合這些非同位SNPs集中分布于3'端非編碼區(qū)的具體情況考慮,推測這些非同位SNPs集中分布于3'端非編碼區(qū)可能有利于調(diào)節(jié)preproEGF的組織特異性表達,也即可能與preproEGF的表達調(diào)控有關[12]。
與在基因組序列的分布相比較,SNPs在preproEGF多肽mRNA/cDNA序列中之分布顯示出較為明確的差異和不甚清晰的相似之處。首先,差異表現(xiàn)在SNPs的種類和數(shù)量方面。具體地說,也即分布于preproEGF基因組序列的SNPs包含有近35%的亞SNPs和65%的RefSNPs;而在兩類mRNA/cDNA序列內(nèi),其所包含的亞SNPs卻很少(僅占比SNPs約8%),絕大多數(shù)為RefSNPs(占比SNPs約92%)。其次,粗看表1、2結果感覺SNPs在mRNA/cDNA序列中的分布雜亂無章而與其在基因組序列中的分布規(guī)律毫無共通之處,然而細致觀察卻可見到SNPs在這兩種序列中的分布仍有些許相似之處,具體表現(xiàn)在:①如果以200 bp相鄰SNP間距劃線為界即可見有少數(shù)SNPs(相鄰間距>200 bp)是呈不均等散布于mRNA/ cDNA序列中的;②SNPs在1~24外顯子區(qū)段呈現(xiàn)出以外顯子6~8、11~12、16~19和22~23為間隔而集合分布在第1~5、10、13~15、20~21和第24外顯子中的特征也與其在基因組序列中呈富集叢簇分布的特征頗為相似[5]。此外,總觀圖1(封三)的SNPs分布還可見其在mRNA/cDNA序列中有一個從5'端往3'端逐漸密集分布以至緊密排列的特征,不過其生物學意義尚待研究。
合并表1、2所列資信繪制而成的SNPs分布圖令其在兩類preproEGF多肽mRNA/cDNA序列中之分布情形顯得較為直觀簡明,易于理解,可為SNP與疾病的相關性研究提供便捷之信息支撐,對其他醫(yī)學應用和實驗研究也具有參考價值。
[1]Bell GI,F(xiàn)ong NM,Stempien MM,et al.Human epidermal growth factor precursor:cDNA sequence,expression in vitro and gene organization[J].Nucleic Acids Res,1986,14(21):8427-8446
[2]Sherry ST,Ward MH,Kholodov M,et al.dbSNP:the NCBI database of genetic variation[J].Nucleic Acids Res,2001,29(1):308-311..
[3]Tian WM,Zhang KR,Zhang J,et al.Association between the epidermal growth factor gene and intelligence in major depression patients[J].Chin Med Sci J,2010,25(2):105-108.
[4]Casula M,Alaibac M,Pizzichetta MA,et al.Italian Melanoma Intergroup(IMI),Palmieri G.Role of the EGF+61A>G polymorphism in melanoma pathogenesis:an experience on a large series of Italian cases and controls[J].BMC Dermatol,2009,9:7.
[5]王敏,李方明,劉祖明,等.SNPs在人preproEGF基因內(nèi)的分布特征初探[J].遵義醫(yī)學院學報,2012,35(2):104-110.
[6]王興林,毛貴川,陸興忠,等.漢族和布依族個體preproEGF基因DNA序列中3個新的單核苷酸多態(tài)性研究[J].四川大學學報:醫(yī)學版,2011,42(6):771-774.
[7]Altschul SF,Gish W,Miller W,et al.Basic local alignment search tool[J].J Mol Biol,1990,215(3):403-410.
[8]Worley KC,Wiese BA,Smith RF.BEAUTY:an enhanced BLAST-based search tool that integrates multiple biological information resources into sequence similarity search results[J].Genome Res,1995,5(2):173-84.
[9]Marth GT,Korf I,Yandell MD,et al.A general approach to single-nucleotide polymorphism discovery[J].Nature Genetics,1999,23(4):452-456.
[10]Mukai E,Kume N,Hayashida K,et al.Heparin-binding EGF-likegrowthfactorinducesexpressionoflectin-likeoxidized LDL receptor-1 in vascular smooth muscle cells[J]. Atherosclerosis,2004,176(2):289-296.
[11]GroenestegeWM,ThebaultS,vanderWijstJ,etal.Impaired basolateral sorting of pro-EGF causes isolated recessive renal hypomagnesemia[J].J Clin Invest,2007,117(8):2260-2267.
[12]Maher B.ENCODE:The human encyclopaedia[J].Nature,2012,489(7414):46-48.
Bioinformatics distribution of single nucleotide polymorphisms in mRNA/ cDNA of human epidermal growth factor precursor
CHEN Haiming1LI Fangming1ZHANG Bing1LIU Zuming1MAO Guichuan1WANG Xinglin1LIU Jinwei2YANG Shaohua3
1.Qianxi'nanzhou People's Hospital The 7th Affiliated Hospital of Zunyi Medical College,Guizhou Province,Xingyi 562400,China;2.The Key Laboratory of Cell Engineering of Guizhou Province,the Affiliated Hospital of Zunyi Medical College,Guizhou Province,Zunyi563000,China;3.HKBSQ Yuanxi Cell-molecular Technology Co.,Ltd.,Hainan Province,Haikou570000,China
Objective To ascertain the distribution of single nucleotide polymorphisms(SNPs)in the mRNA/cDNA of human epidermal growth factor precursor(preproEGF).Methods By the web-based bioinformatics platform for NCBI tools,the dbSNP was searched and analyzed for SNPs relative to human preproEGF mRNA/cDNA.These SNPs were then made the annotation and the diagram for their position and distribution in mRNA/cDNA sequence.Results A total of 106 SNPs,of which 84 were considered the locus-same and 22 were considered the locus-different,were distributed in two mRNA/cDNA sequences with coding regions for preproEGFs from human kidney and other organic tissues.The majority of locus-same SNPs were clustered and assigned to exon 1-5,10,13-15,20-21,24 individually,which were spaced by exon 6-8,11-12,16-19,22-23 apart in preproEGF-coding regions of two mRNA/cDNA sequences.Most of locus-different SNPs were clustered and distributed in three prime non-coding regions of two mRNA/cDNA sequences respectively.However,a rather unique locus-different SNP was located in exon 9 of preproEGF mRNA/cDNA from human kidney.Conclusion The bioinformatics distribution and characterization that the illustration exhibits of SNPs in human preproEGF mRNA/cDNA sequences are useful to help the research design and the study in human disease associated with preproEGF.
Locus-same SNP;PreproEGF;Locus-different;Bioinformatics
R786
A
1673-7210(2014)01(a)-0014-05
2013-10-29本文編輯:程銘)
遵義醫(yī)學院第七附屬醫(yī)院(貴州省黔西南州人民醫(yī)院)科研基金[編號(2009)84]。
陳海明(1961.9-),男,感染性疾病科副主任醫(yī)師。
李方明(1959.8-),男,主任醫(yī)師,碩士研究生導師。