夏得淳,雷子賢,趙娟,李婷婷,趙娟,康曉靜
832000 新疆 石河子,石河子大學 醫(yī)學院(夏得淳);830001 烏魯木齊,新疆維吾爾自治區(qū)人民醫(yī)院 皮膚性病科(雷子賢、趙娟、李婷婷、趙娟、康曉靜)
端粒酶是一種由催化亞基、端粒酶逆轉錄酶(telomerase reverse transcriptase,TERT)和RNA組分(telomerase RNA component,TERC)組成的核糖核蛋白復合物,通過維持端粒穩(wěn)態(tài)和染色體完整性而發(fā)揮作用。TERT基因編碼端粒酶的限速催化亞單位,可維持基因組的完整性。除了生殖干細胞和造血干細胞外,人端粒酶逆轉錄酶(human telomerase reverse transcriptase,hTERT)基因在人體正常細胞中不表達,但在腫瘤組織中高表達[1]。有研究表明,hTERT基因參與多種腫瘤的進展,在80%~90%的惡性腫瘤中均可檢測上調的hTERT基因,其啟動子區(qū)突變與腫瘤的增殖和侵襲也有密切的聯系[2]。除調控端粒酶轉錄活性之外,TERT基因也可通過與P65、β-catenin等轉錄因子相互作用等方式調控除端粒酶之外的其他相關基因的表達,并可調控核轉錄因子 (nuclear transcription factor-κB, NF-κB)信號通路和canonical Wnt/β-catenin pathway通路中的某些基因轉錄程序[3]。然而目前對于hTERT基因自身的轉錄調控機制尚未完全清楚,進一步研究其轉錄調控機制可為hTERT基因在腫瘤發(fā)生、發(fā)展中的作用提供思路。本研究利用生物信息學分析的方法,使用不同的生物信息學軟件對hTERT基因序列及其啟動子區(qū)進行分析,預測hTERT基因啟動子區(qū)CpG島的位置以及轉錄因子結合位點,旨在為hTERT基因的轉錄調控機制及其生物學功能的探索提供理論基礎。
hTERT基因Gene ID為7015,定位于5號染色體短臂(5p15.33),基因全長41 881 bp。hTERT基因啟動子區(qū)genbank編碼:AF098956.1,長度為2 043 bp。
美國國立生物信息中心數據庫(National Center for Biotechnology Information,NCBI):(https://www.ncbi.nlm.nih.gov/genbank/)。CpG島預測軟件:EMBOSS 6.6.0(https://www.ebi.ac.uk/Tools/emboss/),CpG finder 1.0(http://linux1.softberry.com/berry.phtml?topic=cpgfinder&group=programs& subgroup=promoter),MethPrimer 1.0(http://www.urogene.org/methprimer/)。轉錄因子結合位點預測軟件:Patch 1.0(http://gene-regulation.com/cgi-bin/pub/programs/patch/bin/patch.cgi),PROMO 3.0.2(http://alggen.lsi.upc.es/)。
1.3.1hTERT基因序列及其啟動子序列的獲取 在NCBI數據庫中檢索hTERT基因,得到其基因ID為7015,采用FASTA格式對基因序列信息進行儲存。在https://www.ncbi.nlm.nih.gov/nuccore/?term數據庫中檢索hTERT基因及其啟動子序列,得到hTERT基因mRNA序列的登錄號為NM_198253.2,啟動子區(qū)序列genbank號為:AF098956.1,長度共2 043bp,采用FASTA格式對啟動子區(qū)序列信息進行儲存。
1.3.2hTERT基因啟動子區(qū)cpG島分析 將獲得的hTERT基因啟動子區(qū)序列分別上傳至EMBOSS 6.6.0,CpG finder 1.0,MethPrimer 1.0三個在線預測軟件中,按照默認條件(CpG島最短長度200 bp,GC含量最低為50%,最小觀測值為0.6等)進行預測分析。
1.3.3hTERT基因啟動子區(qū)轉錄因子結合位點預測 登錄gene-regulation網站后,將hTERT啟動子序列上傳至Patch 1.0預測軟件,設置參數為set of site選擇vertebrates,Lower score boundary設置為90,其余按默認設置進行檢索。PROMO 3.0.2在線軟件參數設置:“Selectspecies”中均選擇為“Only human factors”,“SearchSites”中“Maximum matrix dissimilarity rate”設為5%,將TERT啟動子序列上傳并進行預測。
hTERT基因在genbank中的登錄號為NC_000005.10,基因組序列全長為41 881 bp(chromosome 5: 1253167.. 1295047),由15個內含子和16個外顯子組成。其轉錄的mRNA全長4 018 bp,編碼1 132個氨基酸組成。hTERT基因啟動子區(qū)GC含量較高,無TATA盒和CAAT盒,啟動子區(qū)序列全長2 043 bp(chromosome 5: 1294667.. 1296709),其核心啟動子區(qū)位于翻譯起始位點上游330 bp至第二外顯子37 bp內。
2.2.1 EMBOSS預測結果 使用EMBOSS 6.6.0在線預測軟件對啟動子區(qū)序列進行預測,預測條件設定為觀察值/預期值>0.60,(G+C)%>50.00%,長度>200 bp。結果共發(fā)現兩個CpG島,第一個位于974~1 223 bp之間,長度為250 bp;第二個位于1 242~1 987 bp之間,長度為746 bp(圖1)。
2.2.2 CpG finder預測結果 按照上述預測標準使用CpG finder 1.0在線預測軟件對TERT基因啟動子序列進行預測,共發(fā)現一個CpG島,位于1 353~1 965bp之間,CpG島的(G+C)=79.3%,觀察值/預期值=0.854,長度為613 bp(圖2)。
圖1 EMBOSS 6.6.0軟件預測的甲基化CpG島圖譜
Figure 1. Methylated-CpG Islands Predicted by EMBOSS 6.6.0
圖2 CpG finder 1.0軟件預測的甲基化CpG島圖譜
Figure 2. Methylated-CpG Islands Predicted by CpG Finder 1.0
2.2.3 MethPrimer預測結果 使用MethPrimer 1.0在線預測軟件在默認條件下進行檢索,結果共發(fā)現3個CpG島,第一個位于807~959 bp之間,長度為153 bp,第二個位于974~1 223 bp之間,長度為250 bp;第三個位于1 242~1 987 bp之間,長度為746 bp(圖3)。因CpG島的片段長度一般大于200 bp,故結果中長度為153 bp的CpG島不被納入。
綜合以上三種預測軟件分析,在相同的預測標準下,EMBOSS與MethPrimer的結果較為相似,預測出的部分CpG島位置相同,而CpG finder雖然只預測出了一個CpG島,但此CpG島所在的位置與其他兩種軟件所預測的基本一致。
2.3.1 Patch程序預測結果 利用Patch 1.0程序搜索TRANSFAC數據庫,共獲得1 769個轉錄因子結合位點(包括小鼠和人類),經篩選后共得到911個人類的轉錄因子結合位點,手工匯總去重后共得到95個轉錄因子,主要包括AP-1、AP-2、CTCF、FOR1、GATA-1、P58、PXR-1、RAR-alpha1、Sp1、TCF-1A、TCF-4等(表1)。
圖3 MethPrimer 1.0軟件預測的甲基化CpG島圖譜
Figure 3. Methylated CpG Islands Predicted by MethPrimer 1.0
表1 Patch 1.0預測的95個轉錄因子
Table 1. 95 Transcription Factors Predicted by Patch 1.0
95 transcription factors predicted by Patch 1.0AML1, AML1a, AML1c, AP-1, mAP-2, AP-2alphaA, AP-4, ARP-1CAR, c-Ets-1, c-Ets-2, c-Fos, c-Jun, c-Myb, c-Myc, CNBP, CP1, CREB, Crx, CTCFE12, E2F, E2F+p107, E2F-1, ER-alpha, EZF-2FOR1, FOR2, FXRgammaCAC1, GATA-1, GR, GR-alphaH4TF-1, H4TF-2, HIF-1, HiNF-A, HiNF-C, HNF-1, HNF-1A, HNF-1B, HNF-3alpha, HNF-3B, hnRNP K, Hp55, Hp65ISGF-3, LEF-1, LF-A1, LUN-1, LXR-alphaMax, MAZ, Meis-2a,. Meis-2b, MTF-1, MZF-1NF-1/L, NFAT-1, NF-ATp, NF-E, NF-E3, NIPP58, Pax-2, Pax-5, Pax-8, Pbx-1a, Pbx-1b, PEA3, POU1F1a, PPUR, PXR-1RAR-alpha1, RXR-alphaSMAD-3, SMAD-4, Sp1, Sp2, Sp3, Sp4, SRYT3R, TBP, TCF-1A, TCF-4, TCF-4E, TFIID, TR2-11USF1, USF2VDRWT1YY1ZFX
2.3.2 PROMO預測結果 PROMO 3.0.2在線軟件使用TRANSFAC數據庫8.3版構建特定的結合位點權重矩陣,共預測出302個轉錄因子結合位點,手工篩選后共得到48個轉錄因子(表2)。與Patch 1.0程序預測結果匯總并去重后,共得到118個轉錄因子,結果如表3所示。
表2 PROMO 3.0.2軟件預測的48個轉錄因子
Table 2. 48 Transcription Factors Predicted by PROMO 3.0.2
NameMatrixWidthNameMatrixWidthRXR-alpha[T01345]7TCF-4E[T02878]7YY1[T00915]4GR[T05076]7GATA-1[T00306]6c-Jun[T00133]7C/EBPbeta[T00581]4E2F-1[T01542]8GR-beta[T01920]5EBF[T05427]11XBP-1[T00902]6GCF[T00320]9AP-2alphaA[T00035]6c-Myc[T00140]6STAT4[T01577]6USF1[T00874]10c-Ets-1[T00112]7ENKTF-1[T00255]8TFIID[T00820]7T3R-beta1[T00851]9HNF-3alpha[T02512]8Ik-1[T02702]13C/EBPalpha[T00105]7MAZ[T00490]13FOXP3[T04280]6Elk-1[T00250]9HNF-1A[T00368]8HIF-1[T01609]9NF-1[T00539]8PPAR-alpha:RXR-alpha[T05221]11NF-AT2[T01945]10NF-kappaB1[T00593]11NF-AT1[T01948]10c-Ets-2[T00113]9Sp1[T00759]10RAR-beta[T00721]10p53[T00671]7PRB[T00696]7Pax-5[T00070]7PRA[T01661]7GR-alpha[T00337]5c-Myb[T00137]8TFII-I[T00824]6HNF-1C[T01951]9NF-AT1[T00550]9HNF-1B[T01950]9ER-alpha[T00261]5TCF-4[T02918]10
表3 Patch 1.0和PROMO 3.0.2軟件預測結果匯總
Table 3. Results Predicted by Patch 1.0 and PROMO 3.0.2
118 transcription factorsAML1, AML1a, AML1c, AP-1, AP-2, AP-2alphaA, AP-4, ARP-1C/EBPalpha, C/EBPbeta, CAR, c-Ets-1, c-Ets-2, c-Fos, c-Jun, c-Myb, c-Myc, CNBP, CP1, CREB, Crx, CTCFE12, E2F, E2F+p107, E2F-1, EBF, Elk-1, ENKTF-1, ER-alpha, EZF-2FOR1, FOR2, FOXP3, FXRgammaCAC1, GATA-1, GCF, GR, GR-alpha, GR-betaH4TF-1, H4TF-2, HIF-1, HiNF-A, HiNF-C, HNF-1, HNF-1A, HNF-1B, HNF-1C, HNF-3alpha, HNF-3B, hnRNP K, Hp55, Hp65IK-1, ISGF-3LEF-1, LF-A1, LUN-1, LXR-alphaMax, MAZ, Meis-2a, Meis-2b, MTF-1, MZF-1NF-1, NF-1/L, NFAT-1, NF-AT1, NF-AT2, NF-ATp, NF-E, NF-E3, NF-kappaB1, NIP
(Table 3 continues on next page)
(Continued from previous page)
118 transcription factorsP53, p58, Pax-2, Pax-5, Pax-8, Pbx-1a, Pbx-1b, PEA3, POU1F1a, PPAR-alpha:RXR-alpha, PPUR, PRA, PRB, PXR-1RAR-alpha1, RXR-alpha, RAR-betaSMAD-3, SMAD-4, Sp1, Sp2, Sp3, Sp4, SRY, STAT4T3R, T3R-beta1, TBP, TCF-1A, TCF-4, TCF-4E, TFIID, TFII-I, TR2-11USF1, USF2VDRWT1XBP-1YY1ZFX
hTERT基因定位于5號染色體短臂(5p15.33),在約90%以上的腫瘤中均可檢測到hTERT基因的表達,其表達增加可恢復端粒酶的活性,并可通過基因組重排、啟動子突變以及其他表觀遺傳學機制維持端粒長度,從而調控細胞的衰老和腫瘤的發(fā)生[4-5]。已有研究證實,hTERT基因的表達可參與乳腺癌[6]、肺癌[7]、甲狀腺癌[8]以及黑素瘤[9]等腫瘤的發(fā)生,并且hTERT基因啟動子的突變均與這些腫瘤的發(fā)生、發(fā)展及預后密切相關。
啟動子一般位于轉錄起始位點上游,能夠指導RNA聚合酶Ⅱ募集和轉錄起始,是調控基因表達的重要組成部分,對基因啟動子的鑒定及相關研究,對基因的轉錄調控具有重要意義。有研究者在黑素瘤中發(fā)現了非編碼TERT基因啟動子突變,這些突變是TERT基因核心啟動子chr5:1295228(C228T)和chr5:1295250(C250T)處反復發(fā)生的C>T突變,從而導致新的ETS轉錄因子結合位點的發(fā)生,這些突變同時導致TERT基因表達成倍增加[10]。C228T和C250T處反復出現的突變表明,hTERT基因啟動子突變可能是黑素瘤和其他類型腫瘤發(fā)生的早期遺傳事件。對hTERT基因啟動子區(qū)域進行初步預測,可更好的為基因轉錄調控機制提供理論依據。近年來,隨著生物信息學的迅猛發(fā)展,多種應用于生物信息分析的軟件和方法日漸成熟,通過生物信息學預測啟動子相關信息和分析啟動子序列及其調控元件,可以為啟動子深入研究奠定基礎,也可為后續(xù)的實驗提供理論依據。
DNA甲基化是胞嘧啶的一種表觀遺傳修飾,哺乳動物DNA甲基化主要出現在CpG二核苷酸的胞嘧啶殘基上。正常細胞中DNA甲基化可維持染色質結構的穩(wěn)定性,并且在基因的表達、胚胎發(fā)育、細胞的增殖及衰老等生物學進程的調控中起到重要作用。而在腫瘤細胞中,DNA甲基化的異常變化則可導致基因表達譜的改變,往往表現為抑癌基因CpG島區(qū)域高甲基化、微小RNA(miRNA)、腫瘤抗原以及內源性逆轉錄病毒等表達缺失,使抑癌基因的表達減少,最終可導致腫瘤發(fā)生[11-12]。
正常情況下,DNA高甲基常常導致轉錄抑制和基因表達降低,低甲基化時則會導致基因表達的增加。然而有研究者發(fā)現,在某些腫瘤組織中,如黑素瘤[13]、口腔鱗癌[14]、肝癌[15]和胃癌[16]中,hTERT基因的表達水平增高,且伴隨著hTERT基因啟動子區(qū)高甲基化水平,且hTERT基因啟動子區(qū)甲基化程度與腫瘤的侵襲程度和更差的預后有關。這種CpG島高甲基化對應基因高表達,低甲基化對應基因低表達的現象也是近年來的研究熱點之一。對hTERT基因啟動子區(qū)域CpG島進行預測分析可為后續(xù)的相關性研究提供一定理論依據。本研究利用EMBOSS 6.6.0、CpG finder 1.0以及MethPrimer 1.0三種不同預測軟件對hTERT基因啟動子區(qū)CpG島進行分析,EMBOSS 6.6.0軟件和MethPrimer 1.0在線軟件預測出的結果較為相似,且兩種軟件的預測結果中均包含有CpG finder 1.0軟件所分析出的CpG島位點,故綜合三種預測軟件的結果,hTERT基因啟動子區(qū)域共含有兩個CpG島,分別位于974~1 223 bp和1 242~1 987 bp之間。Horikawa等研究者在1999年使用GRAIL預測軟件得到hTERT基因啟動子CpG島位點位于857~1 995 bp之間,與本次實驗所預測出的CpG位點基本相符[17]。但由于生物信息學技術的不斷更新,以及各種生物數據庫資料的不斷完善,CpG島預測軟件得到的結果會更加精確。并且,使用Methprimer預測軟件預測CpG島的同時還可以針對每一個CpG島設計用于亞硫酸氫鹽DNA甲基化分析的PCR引物,可為表觀遺傳學方面的研究提供高效、便捷的技術手段[18]。
轉錄因子(transcription factors, TF)是基因調控網絡的關鍵組成部分,可通過特異性結合啟動子和其他基因調控區(qū)以調控基因表達。每個轉錄因子通常識別一組相似的DNA序列,這些序列可以使用位置權重矩陣等模型表示為結合位點模序,了解轉錄因子結合位點模序的特征是掌握轉錄因子調控功能的的重要步驟[19]。轉錄因子結合位點長度一般為5~20 bp,隨著生物實驗驗證的轉錄因子結合位點的不斷積累,近幾年出現了多個收集轉錄因子結合位點的數據庫,如JASPAR、HOCOMOCO、TRANSFAC等數據庫[19]。TRANSFAC數據庫收錄了有關真核生物的轉錄因子,轉錄因子序列及其與真核生物DNA的結合位點等信息。Patch 1.0軟件是在TRANSFAC數據庫中基于模式匹配的方式在一段序列中發(fā)現與模體匹配的位置,并為每一個位置進行賦分以評估匹配的質量[20]。但由于在使用Patch 1.0軟件預測時雖然將物種的篩選條件設置為哺乳動物,檢索后再次經人工篩選出物種為人類的轉錄因子,但其預測結果的假陽性仍相對較高。而PROMO 3.0.2軟件可從指定的物種或物種組的DNA序列中識別潛在的轉錄因子結合位點,并且在預測時可直接將物種選擇人類作為預測條件,在一定程度上能夠降低結果的假陽性率[21]。本實驗使用Patch 1.0程序和PROMO 3.0.2程序對hTERT基因啟動子區(qū)序列在TRANSFAC數據庫中進行比對預測,經匯總去重后共得到118個轉錄因子結合位點。其中多個轉錄因子結合位點已被相關研究者證實在腫瘤的發(fā)病機制、治療及預后中具有重要作用[22]。如Song等[23]發(fā)現,轉錄因子AP-4可以激活canonical Wnt/β-catenin pathway信號通路及其下游信號靶點,從而增加肝癌細胞的成瘤能力。而轉錄因子AP-1則在某些自身免疫性疾病及惡性腫瘤中均有重要調節(jié)作用[24]。轉錄因子c-Myc的表達與喉鱗狀細胞癌術后腫瘤復查率呈正相關[25]。并且本次預測結果中的多個轉錄因子結合位點已有相關研究證實可以參與調控hTERT基因的表達,如AP-1、c-Myc、CTCF、HIF-1、SP-1、VDR、WT1等(表4)但由于hTERT基因調控機制較為復雜,其中部分轉錄因子結合位點只在hTERT基因調控網絡中的一小環(huán)節(jié)中發(fā)揮作用,并且另有一部分參與調控hTERT基因表達的轉錄因子結合位點目前尚未發(fā)現。由于目前應用軟件只能分析數據庫中已知的轉錄因子結合位點,而對于目的基因啟動子區(qū)域新的或尚未發(fā)現的轉錄因子結合位點無法預測,故此方法具有一定局限性。生物信息學軟件所得到的結果只能為后續(xù)研究提供理論依據,但結果的準確性仍需進行實驗加以證實。
表4 預測結果中已被報道的轉錄因子
Table 4. Transcription Factors Reported in Predicted Results
Transcription factorActivator/repressorReferenceAP-1Both[26]c-MycBoth[27]CTCFRepressor[28]E2FRepressor[29]E2F-1Repressor[29]c-Ets-1/ c-Ets-2Both[30]HIF-1Activator[31]hnRNP KActivator[32]MAZRepressor[33]NFAT-1Activator[34]NF-κBActivator[35]NIPRepressor[36]P53Repressor[37]Pax-5Activator[38]Pax-8Activator[39]SP1Both[40]SP3Repressor[40]USF1/ USF2Both[41]VDRRepressor[42]WT1Repressor[43]YY1Repressor[44]
綜上所述,本研究首先從NCBI Genbank數據庫中獲取hTERT基因及其啟動子區(qū)序列,然后使用多個生物信息學軟件對hTERT基因啟動子區(qū)CpG島的位置,以及轉錄因子及其結合位點進行預測分析,可為進一步構建hTERT基因啟動子表達載體和檢測啟動子活性提供理論基礎,并可為hTERT基因在腫瘤等相關疾病發(fā)病過程中的機制提供一定思路。
作者聲明:本文全部作者對于研究和撰寫的論文出現的不端行為承擔相應責任;并承諾論文中涉及的原始圖片、數據資料等已按照有關規(guī)定保存,可接受核查。
學術不端:本文在初審、返修及出版前均通過中國知網(CNKI)科技期刊學術不端文獻檢測系統的學術不端檢測。
同行評議:經同行專家雙盲外審,達到刊發(fā)要求。
利益沖突:所有作者均聲明不存在利益沖突。
文章版權:本文出版前已與全體作者簽署了論文授權書等協議。