陳海明等
[摘要] 目的 探明單核苷酸多態(tài)(SNPs)在人表皮生長因子前體蛋白(preproEGF)mRNA/cDNA序列中的分布狀況。 方法 憑借美國生物信息中心(NCBI)平臺和單核苷酸多態(tài)資料庫(dbSNP)檢索、分析、標(biāo)注和圖解相關(guān)SNPs在人preproEGF多肽mRNA/cDNA序列中的分布位點(diǎn)和生物信息學(xué)特征。 結(jié)果 分布在人腎源和其他組織源preproEGF多肽mRNA/cDNA序列中的SNPs總計(jì)有106個(gè),其中84個(gè)同位SNPs大多數(shù)以外顯子6~8、11~12、16~19和22~23為間隔并集中歸位于第1~5、10、13~15、20~21、24外顯子序列中,另外的22個(gè)非同位SNPs大多數(shù)以密集叢簇為特征而各自分布在兩類序列3'端非編碼序列中,但個(gè)別例外則單獨(dú)歸位于腎源類序列的第9外顯子中。 結(jié)論 SNPs在人兩類preproEGF多肽mRNA/cDNA序列中的生物信息學(xué)分布、特征和圖示對于SNP與疾病或性狀的相關(guān)性研究及課題設(shè)計(jì)頗具參考價(jià)值。
[關(guān)鍵詞] 同位單核苷酸多態(tài);人表皮生長因子前體蛋白;非同位單核苷酸多態(tài);生物信息學(xué)
[中圖分類號] R786 [文獻(xiàn)標(biāo)識碼] A [文章編號] 1673-7210(2014)01(a)-0014-05
人表皮生長因子前體蛋白(prepro-epidermal growth factor,preproEGF)mRNA/cDNA序列由24個(gè)外顯子組成,長約5 kb,編碼一條1207個(gè)氨基酸的蛋白多肽鏈,該肽鏈在翻譯生成后經(jīng)蛋白酶剪切加工形成的成熟表皮生長因子(一段53個(gè)氨基酸多肽)對人體表皮細(xì)胞的生長、分化和代謝起著十分重要的作用[1]。也許由于mRNA序列轉(zhuǎn)錄的選擇性剪接加工等生物學(xué)機(jī)制的緣故,基因在表達(dá)時(shí)常常會出現(xiàn)蛋白多肽變體,目前已知的preproEGF變體有腎源和其他組織源兩類。另一方面,preproEGF基因序列的遺傳多態(tài),特別是單核苷酸多態(tài)(single nucleotide polymorphysims,SNPs)也可致其出現(xiàn)變體或功能改變,還可引起疾病的發(fā)生[2-3],例如,迄今的研究已表明,分布在preproEGF基因第61 bp位點(diǎn)的SNP(A/G)與歐美人某些腫瘤例如黑色素瘤等發(fā)生具有相關(guān)性[4]。可見深入探明SNPs及其在preproEGF基因或mRNA/cDNA中的分布情況對于探索疾病相關(guān)性的研究頗具指導(dǎo)價(jià)值和醫(yī)學(xué)意義。至目前為止,SNPs在preproEGF基因組DNA序列內(nèi)之生物信息學(xué)分布及其在第20、21外顯子和其間內(nèi)含子區(qū)段中呈現(xiàn)稀疏分布的特點(diǎn)于近期已見報(bào)道[5-6],但其在mRNA/cDNA序列中的情況如何則尚待探明。本研究擬借助NCBI的生物信息學(xué)平臺對SNPs及其在preproEGF核酸或mRNA/cDNA序列中的分布進(jìn)行分析定位和標(biāo)注圖解,為進(jìn)一步的疾病相關(guān)性研究和醫(yī)學(xué)應(yīng)用提供基礎(chǔ)。
1 對象與方法
1.1 研究對象
人preproEGF基因和蛋白多肽及其變體的mRNA/cDNA序列。
1.2 儀器和信息資源
計(jì)算機(jī)(聯(lián)想公司)、電訊寬帶網(wǎng)路(中國電訊)、NCBI的生物信息程序和dbSNP。
1.3 方法
從電訊寬帶登錄網(wǎng)址www.nlm.nih.gov,參照研究介紹的方法檢索分析和定位注釋存在于preproEGF多肽及其變體mRNA/cDNA序列中的SNPs[7-9]。
2 結(jié)果
經(jīng)Blast和Entrez SNP檢索到在人4號染色體上分兩類preproEGF多肽的mRNA/cDNA序列中存在有不同數(shù)目和種類的SNPs,可依其rs#從5'端到3'端行順序編號并歸位其在核酸序列中的位點(diǎn),同時(shí)計(jì)算各相鄰SNP位點(diǎn)之間的距離。見表1、2。
由表1、2可見,編號于人兩類preproEGF多肽mRNA/cDNA序列中的SNPs在種類數(shù)目上有所不同,即腎源類SNPs為51個(gè),而其他組織源類卻為55個(gè),總計(jì)106個(gè)SNPs。進(jìn)一步觀察對比這兩類SNPs可見,其大多數(shù)(84個(gè)或42對)是位點(diǎn)及種類皆同一或同位的,主要分布在外顯子序列中;而少數(shù)(腎源類9個(gè),其他組織源類13個(gè))卻表現(xiàn)出非同位或各自不相同的,主要分布在3'端非編碼序列中。合并表1和表2的資料信息,可繪制成SNPs及其在兩類preproEGF多肽mRNA/cDNA序列中的分布圖。見圖1(封三)。
由圖1(封三)可見,在第1~5、10、13~15、20~21和第24外顯子中總計(jì)分布有30對同位點(diǎn)SNPs;在第9外顯子中分布有1個(gè)腎源類非同位點(diǎn)SNP;在第6~8、11~12、16~19和22~23外顯子中沒有SNP分布;7個(gè)腎源類非同位點(diǎn)SNPs或12個(gè)其他組織源類非同位點(diǎn)SNPs分別分布在其3'端非編碼序列中。
3 討論
本研究應(yīng)用生物信息學(xué)技術(shù)對存在于人preproEGF多肽mRNA/cDNA序列中的SNP及其分布情況進(jìn)行了檢索分析,結(jié)果得到共計(jì)106個(gè)位點(diǎn)及其SNPs分別分布于兩類(腎源和其他組織源)mRNA/cDNA序列中。深入對比觀察這些結(jié)果首先可見,分布于兩類序列的42對共計(jì)84個(gè)SNPs因其相鄰SNP間距相等而初步顯示彼此的SNP位點(diǎn)及種類(RefSNP和亞SNP)皆具同一性;如果對比分析表1、2中的SNP位點(diǎn)也不難發(fā)現(xiàn)42對SNPs在兩類mRNA/cDNA序列間之位點(diǎn)差距皆為16 bp,這說明分布于兩類序列中的這些SNPs確實(shí)是位點(diǎn)及種類相同或同一的,本文將其簡稱為同位SNP。其次,觀察分析結(jié)果也可見表1、2中有22個(gè)SNPs因其相鄰SNP間距既不相等也不遵循兩序列間相應(yīng)位點(diǎn)之差距為16 bp的規(guī)律并且還數(shù)目不等地分別分布于各自歸位的mRNA/cDNA序列中而表現(xiàn)出各自不同的位點(diǎn)差異性,對此本文稱其為非同位SNP。
觀察圖1(封三)可見,分布在mRNA/cDNA序列編碼區(qū)的SNPs絕大多數(shù)(97%)都是同位SNP對,這可能是為了維穩(wěn)兩類preproEGF多肽的遺傳需要所決定的,因?yàn)橐揽客籗NPs彼此間的高度同一性,方可確保由這些SNPs組成的密碼子在分別編碼兩條蛋白多肽鏈時(shí)不會引起相應(yīng)位點(diǎn)的氨基酸(AA)彼此出現(xiàn)差異從而改變蛋白多肽之結(jié)構(gòu)和功能。然而,分布在序列編碼區(qū)的個(gè)別SNP也有不是同位SNP的例外情況,例如,第9外顯子內(nèi)的015號SNP(R-1816)即不是同位SNP,而是一個(gè)屬于腎源類的非同位SNP 。由于這個(gè)非同位SNP是位于蛋白多肽編碼區(qū)內(nèi),因而頗有可能令其編碼的AA有別于其他組織源preproEGF多肽序列相應(yīng)位點(diǎn)的AA。一方面造成腎源類preproEGF多肽在結(jié)構(gòu)或生物學(xué)特性方面有別于其他組織源類preproEGF多肽;另一方面因?yàn)樵斐傻鞍锥嚯牡慕Y(jié)構(gòu)和功能改變而導(dǎo)致疾病發(fā)生。盡管有如此可能的風(fēng)險(xiǎn),但由于這個(gè)非同位SNP所歸位的第9外顯子并不參與編碼53個(gè)AA多肽的成熟EGF,因而不太可能對成熟EGF的結(jié)構(gòu)和生物活性造成影響或帶來改變。不過,由于第9外顯子參與編碼一段類似EGF的同源多肽和一段低密度脂蛋白(LDL)受體同源肽段,因而這個(gè)非同位SNP還是有可能影響到腎源類preproEGF多肽與其他組織源類preproEGF多肽出現(xiàn)結(jié)構(gòu)和生物學(xué)特性差異的[1,10]。當(dāng)然事實(shí)是否果真如此迄今仍缺乏直接的證據(jù),不過已有相似的例子見于研究報(bào)道,研究發(fā)現(xiàn),位于腎源類preproEGF多肽mRNA/cDNA序列第22外顯子中的一個(gè)單核苷酸由C變成了T,也即C3209T,因而使得preproEGF多肽鏈第1070位AA也相應(yīng)地從脯氨酸變成了亮AA,即P1070L;同時(shí),該研究還發(fā)現(xiàn)由于這個(gè)AA的改變導(dǎo)致了腎源preproEGF多肽維持體內(nèi)Mg2+平衡之生物學(xué)功能隨之改變進(jìn)而引發(fā)了低Mg2+血癥[11]。此外,也有報(bào)道觀察到:腎源preproEGF多肽加工生成成熟EGF的場所是位于細(xì)胞之外,而其他組織源(例如下頜下腺、胰腺、前列腺等組織)的preproEGF加工生成成熟EGF則是在細(xì)胞內(nèi)完成的;反之,在頜下腺、胰腺和乳腺等組織,preproEGF可被剪切加工生成成熟的EGF,但是在腎臟,preproEGF則不被剪切加工生成EGF[1]。據(jù)此推測,兩類preproEGF多肽之間所展示的這些生物學(xué)特性差異也許會有一些SNP的影響因素在里面。其次,觀察圖1(封三)也可見分布在mRNA/cDNA序列非編碼區(qū)的SNPs大多不是同位而是非同位SNPs。然而,一個(gè)有趣的現(xiàn)象是這些非同位SNPs極少分布在序列5'端非編碼區(qū),而是大多集中分布在了3' 端非編碼區(qū),具體的分布情況是:在兩類mRNA/cDNA序列之5'端非編碼區(qū)可見腎源類或其他組織源類SNPs各自僅分布了1個(gè)非同位SNP;而在序列之3'端非編碼區(qū)腎源類SNPs卻集中分布有7個(gè)非同位SNPs,其他組織源類更是集中分布了12個(gè)非同位SNPs。至于這些非同位SNPs的集中分布對preproEGF多肽有何生物學(xué)意義目前還不十分清楚,不過如果依據(jù)DNA元素百科全書研究項(xiàng)目對非編碼核酸序列之生物學(xué)功能的發(fā)現(xiàn)和理解并且結(jié)合這些非同位SNPs集中分布于3'端非編碼區(qū)的具體情況考慮,推測這些非同位SNPs集中分布于3'端非編碼區(qū)可能有利于調(diào)節(jié)preproEGF的組織特異性表達(dá),也即可能與preproEGF的表達(dá)調(diào)控有關(guān)[12]。
與在基因組序列的分布相比較,SNPs在preproEGF多肽mRNA/cDNA序列中之分布顯示出較為明確的差異和不甚清晰的相似之處。首先,差異表現(xiàn)在SNPs的種類和數(shù)量方面。具體地說,也即分布于preproEGF基因組序列的SNPs包含有近35%的亞SNPs和65%的RefSNPs;而在兩類mRNA/cDNA序列內(nèi),其所包含的亞SNPs卻很少(僅占比SNPs約8%),絕大多數(shù)為RefSNPs(占比SNPs約92%)。其次,粗看表1、2結(jié)果感覺SNPs在mRNA/cDNA序列中的分布雜亂無章而與其在基因組序列中的分布規(guī)律毫無共通之處,然而細(xì)致觀察卻可見到SNPs在這兩種序列中的分布仍有些許相似之處,具體表現(xiàn)在:①如果以200 bp相鄰SNP間距劃線為界即可見有少數(shù)SNPs(相鄰間距>200 bp)是呈不均等散布于mRNA/cDNA序列中的;②SNPs在1~24外顯子區(qū)段呈現(xiàn)出以外顯子6~8、11~12、16~19和22~23為間隔而集合分布在第1~5、10、13~15、20~21和第24外顯子中的特征也與其在基因組序列中呈富集叢簇分布的特征頗為相似[5]。此外,總觀圖1(封三)的SNPs分布還可見其在mRNA/cDNA序列中有一個(gè)從5'端往3'端逐漸密集分布以至緊密排列的特征,不過其生物學(xué)意義尚待研究。
合并表1、2所列資信繪制而成的SNPs分布圖令其在兩類preproEGF多肽mRNA/cDNA序列中之分布情形顯得較為直觀簡明,易于理解,可為SNP與疾病的相關(guān)性研究提供便捷之信息支撐,對其他醫(yī)學(xué)應(yīng)用和實(shí)驗(yàn)研究也具有參考價(jià)值。
[參考文獻(xiàn)]
[1] Bell GI,F(xiàn)ong NM,Stempien MM,et al. Human epidermal growth factor precursor: cDNA sequence, expression in vitro and gene organization [J]. Nucleic Acids Res,1986,14(21):8427-8446
[2] Sherry ST,Ward MH,Kholodov M,et al. dbSNP: the NCBI database of genetic variation [J]. Nucleic Acids Res,2001,29(1):308-311..
[3] Tian WM,Zhang KR,Zhang J,et al. Association between the epidermal growth factor gene and intelligence in major depression patients [J]. Chin Med Sci J,2010,25(2):105-108.
[4] Casula M,Alaibac M,Pizzichetta MA,et al. Italian Melanoma Intergroup (IMI),Palmieri G. Role of the EGF +61A>G polymorphism in melanoma pathogenesis: an experience on a large series of Italian cases and controls [J]. BMC Dermatol,2009, 9:7.
[5] 王敏,李方明,劉祖明,等.SNPs在人preproEGF基因內(nèi)的分布特征初探 [J].遵義醫(yī)學(xué)院學(xué)報(bào),2012,35(2):104-110.
[6] 王興林,毛貴川,陸興忠,等.漢族和布依族個(gè)體preproEGF基因DNA序列中3個(gè)新的單核苷酸多態(tài)性研究[J].四川大學(xué)學(xué)報(bào):醫(yī)學(xué)版,2011,42(6):771-774.
[7] Altschul SF,Gish W,Miller W,et al. Basic local alignment search tool [J]. J Mol Biol,1990,215(3):403-410.
[8] Worley KC,Wiese BA,Smith RF. BEAUTY:an enhanced BLAST-based search tool that integrates multiple biological information resources into sequence similarity search results [J]. Genome Res,1995,5(2):173-84.
[9] Marth GT,Korf I,Yandell MD,et al. A general approach to single-nucleotide polymorphism discovery [J]. Nature Genetics,1999,23(4):452-456.
[10] Mukai E,Kume N,Hayashida K,et al. Heparin-binding EGF-like growth factor induces expression of lectin-like oxidized LDL receptor-1 in vascular smooth muscle cells [J]. Atherosclerosis,2004,176(2):289-296.
[11] Groenestege WM,Thebault S,van der Wijst J,et al. Impaired basolateral sorting of pro-EGF causes isolated recessive renal hypomagnesemia [J]. J Clin Invest,2007,117(8):2260-2267.
[12] Maher B. ENCODE:The human encyclopaedia [J]. Nature,2012,489(7414):46-48.
(收稿日期:2013-10-29 本文編輯:程 銘)
[4] Casula M,Alaibac M,Pizzichetta MA,et al. Italian Melanoma Intergroup (IMI),Palmieri G. Role of the EGF +61A>G polymorphism in melanoma pathogenesis: an experience on a large series of Italian cases and controls [J]. BMC Dermatol,2009, 9:7.
[5] 王敏,李方明,劉祖明,等.SNPs在人preproEGF基因內(nèi)的分布特征初探 [J].遵義醫(yī)學(xué)院學(xué)報(bào),2012,35(2):104-110.
[6] 王興林,毛貴川,陸興忠,等.漢族和布依族個(gè)體preproEGF基因DNA序列中3個(gè)新的單核苷酸多態(tài)性研究[J].四川大學(xué)學(xué)報(bào):醫(yī)學(xué)版,2011,42(6):771-774.
[7] Altschul SF,Gish W,Miller W,et al. Basic local alignment search tool [J]. J Mol Biol,1990,215(3):403-410.
[8] Worley KC,Wiese BA,Smith RF. BEAUTY:an enhanced BLAST-based search tool that integrates multiple biological information resources into sequence similarity search results [J]. Genome Res,1995,5(2):173-84.
[9] Marth GT,Korf I,Yandell MD,et al. A general approach to single-nucleotide polymorphism discovery [J]. Nature Genetics,1999,23(4):452-456.
[10] Mukai E,Kume N,Hayashida K,et al. Heparin-binding EGF-like growth factor induces expression of lectin-like oxidized LDL receptor-1 in vascular smooth muscle cells [J]. Atherosclerosis,2004,176(2):289-296.
[11] Groenestege WM,Thebault S,van der Wijst J,et al. Impaired basolateral sorting of pro-EGF causes isolated recessive renal hypomagnesemia [J]. J Clin Invest,2007,117(8):2260-2267.
[12] Maher B. ENCODE:The human encyclopaedia [J]. Nature,2012,489(7414):46-48.
(收稿日期:2013-10-29 本文編輯:程 銘)
[4] Casula M,Alaibac M,Pizzichetta MA,et al. Italian Melanoma Intergroup (IMI),Palmieri G. Role of the EGF +61A>G polymorphism in melanoma pathogenesis: an experience on a large series of Italian cases and controls [J]. BMC Dermatol,2009, 9:7.
[5] 王敏,李方明,劉祖明,等.SNPs在人preproEGF基因內(nèi)的分布特征初探 [J].遵義醫(yī)學(xué)院學(xué)報(bào),2012,35(2):104-110.
[6] 王興林,毛貴川,陸興忠,等.漢族和布依族個(gè)體preproEGF基因DNA序列中3個(gè)新的單核苷酸多態(tài)性研究[J].四川大學(xué)學(xué)報(bào):醫(yī)學(xué)版,2011,42(6):771-774.
[7] Altschul SF,Gish W,Miller W,et al. Basic local alignment search tool [J]. J Mol Biol,1990,215(3):403-410.
[8] Worley KC,Wiese BA,Smith RF. BEAUTY:an enhanced BLAST-based search tool that integrates multiple biological information resources into sequence similarity search results [J]. Genome Res,1995,5(2):173-84.
[9] Marth GT,Korf I,Yandell MD,et al. A general approach to single-nucleotide polymorphism discovery [J]. Nature Genetics,1999,23(4):452-456.
[10] Mukai E,Kume N,Hayashida K,et al. Heparin-binding EGF-like growth factor induces expression of lectin-like oxidized LDL receptor-1 in vascular smooth muscle cells [J]. Atherosclerosis,2004,176(2):289-296.
[11] Groenestege WM,Thebault S,van der Wijst J,et al. Impaired basolateral sorting of pro-EGF causes isolated recessive renal hypomagnesemia [J]. J Clin Invest,2007,117(8):2260-2267.
[12] Maher B. ENCODE:The human encyclopaedia [J]. Nature,2012,489(7414):46-48.
(收稿日期:2013-10-29 本文編輯:程 銘)