張吉梅 楊凌駿 吳從平 馬亞鵬 苗增民 郭福軍 趙寶昌
(1.泰山醫(yī)學院,山東 泰安 271016; 2.泰安市第一中學,山東 泰安 271000)
人類T細胞免疫球蛋白粘蛋白分子-4 ( T cell immunoglobulin and mucin domain containing 4,TIM-4) 屬于TIM基因家族。TIM基因家族首先是在小鼠的哮喘模型中定位并克隆的[1],隨后在人類基因組5q33.2區(qū)段發(fā)現(xiàn)了與之同源的TIM基因家族。人類TIM基因家族編碼的跨膜糖蛋白包括5個功能區(qū),分別為信號肽區(qū)、免疫球蛋白區(qū)、粘蛋白區(qū)、跨膜區(qū)和胞內區(qū)[2],在N端有一段共同基序。該家族3個成員TIM-1、TIM-3和TIM-4均在人體免疫調節(jié)中起關鍵作用,尤其是參與Th1/Th2 細胞的免疫平衡。TIM-4在巨噬細胞、樹突狀細胞等抗原提呈細胞表面特異性表達,是TIM-1的天然配體,與TIM-1結合后可刺激Th2細胞的增殖和分化[3]。在免疫應答過程中TIM-4參與了T細胞功能調控、凋亡細胞清除及巨噬細胞功能調節(jié)等諸多調控環(huán)節(jié)[4]。由于對TIM-4基因的轉錄調控機制知之甚少,本研究利用生物信息學的分析方法,對該基因轉錄起始點上游的啟動子區(qū)域進行了分析,獲得了該區(qū)域內潛在的轉錄因子結合部位,為TIM-4基因啟動子的鑒定奠定了基礎,為分析TIM-4基因的功能及在疾病發(fā)生發(fā)展中的作用提供了重要的理論基礎。
TIM-4基因Gene ID: 91937,定位于5號染色體長臂(5q 33.2) ,基因跨越47505 bp。
①美國國立生物技術信息中心Genebank數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/genbank/);Ensembl網站(http://asia.ensembl.org/index.html)。②啟動子在線尋找軟件網址:Promoter 2.0 (http://www.cbs.dtu.dk/services/promoter/); Promoter SCAN (www.bimas.dcrt.nih.gov:80/molbio/proscan/);Neural Network PromoterPrediction (http://www.fruitfly.org/seq tools/promoter.html)。③CpG島在線預測軟件網址:CpG Island Promoter Detection (http://doua.prabi.fr/software/cpgprod query);CpG finder(http://www.softberry.com/berry.phtml?topic=cpgfinder&group=programs&subgroup=promoter);CpGPlot (http://www.ebi.ac.uk/emboss/cpgplot/index.html) 。④轉錄因子結合部位預測軟件網址:AliBaba 1 (http://gene-regulation.com/pub/programs/alibaba2/index.html)。
1.3.1TIM-4基因序列的獲取 在https://www.ncbi.nlm.nih.gov/genbank/ 數(shù)據(jù)庫中檢索TIM-4基因, 得到其基因號為91937。在 https://www.ncbi.nlm.nih.gov/nuccore/?term= 數(shù)據(jù)庫中獲得TIM-4的mRNA序列,登錄號為 NM_38379.2。
1.3.2TIM-4 基因啟動子序列的獲取 在Ensembl網站中查找TIM-4基因,獲得其基因序列及轉錄起始點的準確位置,截取從轉錄起始點上游2000 bp 至下游+500 bp共2500 bp的序列,整段序列采用Gen-bank格式獲取。預計該序列中包含基因的潛在啟動子序列,可用于后續(xù)分析。轉錄起始點下游+500 bp包含全部第一外顯子和第一內含子部分序列。
1.3.3TIM-4基因啟動子序列的預測分析 登錄Promoter 2.0,Neural Network Promoter Prediction,Promoter SCAN的網址,分別利用3個預測軟件,在默認條件下進行預測。
1.3.4TIM-4基因啟動子CpG島分析 分別在CpG Island Promoter Detection和CpG finder軟件的搜索框中,上傳獲取的基因序列,按照默認條件(CpG島最低長度200 bp,GC含量最低為50%等)進行預測分析。
1.3.5TIM-4基因啟動子區(qū)轉錄因子結合位點分析 登錄Gene-regulatiion網站,選擇AliBaba 2程序,輸入TIM-4基因啟動子區(qū)域2500 bp的DNA序列,利用程序搜索TRANSFAC 4.0數(shù)據(jù)庫,獲得轉錄因子與TIM-4基因潛在的結合位點。
TIM-4基因在Genebank中的登錄號為NC_000005.10,定位于5號染色體長臂 5q 33.2,基因跨越47505 bp(156915750~156963255 bp)。其轉錄產物ID號是NM_138379.2,編碼蛋白質產物ID號為P_612388.2。人類TIM-4分子含有9個外顯子、8個內含子, 由378個氨基酸組成,免疫球蛋白可變區(qū)由外顯子1-2編碼,編碼粘蛋白結構域由外顯子3-5,跨膜區(qū)由外顯子6-7編碼,胞內區(qū)由外顯子8-9編碼。
Promoter 2. 0與Neural Network Promoter Prediction兩個軟件預測結果見表1。Promoter 2. 0軟件預測的結果提示,TIM-4基因上游可能存在2個不同的啟動子區(qū),其中臨界預測位于300 bp處,最大可能預測位于2100 bp處。Neural Network Promoter Prediction軟件預測的結果提示,TIM-4基因上游可能存在2個不同的啟動子序列,其中第一個序列位于162~212 bp處,P值為1.00;第二個序列位于1990~2040處,P值為0.97。Promoter SCAN軟件未預測出可能的啟動子序列。
表1 TIM-4基因啟動子區(qū)域的預測結果
2.3TIM-4基因CpG 島預測結果 在線軟件CpG Island Promoter Detection、CpG finder、CpGPlot均未在TIM-4上游啟動區(qū)域發(fā)現(xiàn)CpG 島。CpGPlot的預測結果如圖1所示。
2.4TIM-4基因轉錄因子結合位點預測 利用AliBaba2.1程序搜索TRANSFAC數(shù)據(jù)庫后,在正負鏈共獲得187個轉錄因子結合部位,主要包括RAR-α、RAR-β、T3R-β、Sp1、REB1、IRF-1、T3Rα、GATA1、Oct-1、C/EBPα、C/EBP、SRY、c-Jun、NF-κB、HNF-3B、Oct-11、Pit-1a、AP-1、MEB-1、HSF、EFI、USF、RAR-α、ISGF-3、GCN4、ISGF-3等。
圖1 CpGPlot對TIM-4基因啟動子區(qū)域的預測結果
人類T 細胞免疫球蛋白粘蛋白4 (T cell immunoglobulin and mucin domain containing 4,TIM-4) 屬于TIM基因家族,該基因定位于5號染色體長臂(5q 31-33) 。人類TIM基因家族包含TIM-1、TIM-3、TIM-4三個分子,主要調節(jié)Th0細胞向Th/Th2細胞的分化發(fā)育,調節(jié)Th1/Th2免疫平衡。TIM-1高表達于活化的Th2細胞。TIM-4是TIM-1的受體之一,主要表達于抗原提呈細胞(如巨噬細胞、樹突狀細胞等)表面,兩者的結合可刺激Th2細胞的活化,使Th1/Th2 平衡向Th2 細胞偏移[5]。已有研究[6]表明TIM-4表達的升高與過敏性哮喘、器官移植免疫耐受等疾病的發(fā)生密切相關。
啟動子是調控基因表達的重要組成部分,通常位于基因5’上游區(qū)域,它們與RNA聚合酶II的結合是控制基因轉錄的起始時間和表達程度的關鍵環(huán)節(jié)。因此對基因啟動子的鑒定是遺傳學領域重要的問題之一,利用生物信息學對啟動子的分析和預測,可以為后續(xù)的實驗提供方向指導。根據(jù)DNA的序列特征,生物信息學家設計開發(fā)了兩類分析基因啟動子的軟件,主要目的分別為搜尋啟動子區(qū)域或鑒定啟動子調控元件。目前國際上公認的比較成熟的搜尋啟動子區(qū)域軟件主要有Promoter 2.0,Neural Network Promoter Prediction,Promoter SCAN等。識別啟動子區(qū)域的關鍵點是確定轉錄起始位點的位置,這可以通過搜索TATA box等核心序列,或搜索已經確認的轉錄因子結合位點等來實現(xiàn)[7]。本研究分別采用3種不同的啟動子分析軟件對TIM-4 基因啟動子區(qū)域進行預測,結果發(fā)現(xiàn)該基因至少存在著2個啟動子。雖然由于預測軟件的原理不同導致預測結果有一定差異,但基本可以確定啟動子存在于基因的5’非編碼區(qū)上游。
真核生物啟動子區(qū)域的甲基化是調控基因表達的重要機制,也是一些遺傳病和腫瘤發(fā)生的重要原因[8]。幾乎所有的管家基因和約60%的組織特異性表達基因都含CpG島,CpG島通常位于基因啟動子的核心序列和轉錄起始點附近。如果一個基因啟動子區(qū)域的CpG島被甲基化,就會阻礙轉錄因子與之結合,導致基因不能啟動轉錄而失去生物學效應[9]。本研究應用在線軟件CpG Island Promoter Detection和CpG finder均未在TIM-4上游啟動區(qū)域發(fā)現(xiàn)CpG島。
我們利用AliBaba 2.1程序搜索TRANSFAC數(shù)據(jù)庫,對TIM-4基因轉錄起始點上游至轉錄起始點下游2500 bp的序列進行了預測。轉錄因子是一類細胞核內蛋白質因子,亦稱為反式作用因子,它們通過與順式作用元件結合來促進RNA 聚合酶II的轉錄活性。當機體處于不同發(fā)育階段或受到不同外界環(huán)境的刺激時,會有不同的轉錄因子結合于相應的順式作用元件(即轉錄因子結合位點),通過激活或抑制基因的轉錄,從而達到調節(jié)基因表達量的效果[10]。因為計算機程序只能分析目的基因的啟動子區(qū)域是否有已知轉錄因子的潛在結合位點,因為無法預測是否有新的或未知的轉錄因子結合位點,因此該預測方法有一定的局限性。所以,生物信息學軟件的分析結果可為后續(xù)的研究指明方向,但其準確性與真實性尚需后續(xù)的實驗研究來進一步驗證。
啟動子元件為順式作用元件,它們無法單獨發(fā)揮作用,必須要與相應的反式作用因子(轉錄因子)結合才能有效的激活基因轉錄,啟動子調控元件的鑒定有助于我們尋找相應的轉錄因子。我們利用AliBaba 2.1程序搜索TRANSFAC 6.0數(shù)據(jù)庫,在TIM-4基因啟動子轉錄區(qū)2500 bp片段中共獲得187個轉錄因子結合位點,在后續(xù)構建系列截短熒光素酶表達載體時應充分參考此結果,不能中斷這些轉錄因子結合位點。
本研究首先在NCBI 的GeneBank 中獲得了TIM-4的基因序列,并獲取TIM-4基因上游至5’側翼2500 bp序列,再利用在線分析軟件對TIM-4啟動子區(qū)域、CpG 島分布以及轉錄因子結合位點進行了分析和預測,為后續(xù)實驗構建TIM-4基因啟動子表達載體及檢測啟動子活性,以及進一步探討TIM-4基因在相關疾病發(fā)生發(fā)展中的作用機制提供了理論基礎。