王南宇,楊 科,崔申申,張祝琴,劉德培
(中國醫(yī)學科學院 北京協(xié)和醫(yī)學院 基礎(chǔ)醫(yī)學研究所 醫(yī)學分子生物學國家重點實驗室,北京 100005)
人的β-珠蛋白基因簇隨著個體發(fā)育進程,依次表達ε-珠蛋白、γ-珠蛋白基因、β-珠蛋白基因,該珠蛋白基因表達轉(zhuǎn)換過程受到嚴格的時空特異性調(diào)控,是一個復雜精細的真核基因表達調(diào)控事件[1]。由于成年期β-珠蛋白基因編碼結(jié)構(gòu)的突變或表達量的減少導致的β-血紅蛋白病是世界上最大的單基因遺傳病,而在成年期開啟胎兒期表達的γ-珠蛋白基因,可以治療β-血紅蛋白病[2]。因此,研究γ-向β-珠蛋白基因的表達轉(zhuǎn)換,不僅在基因表達調(diào)控理論上還是臨床應(yīng)用上都具有很大的意義。
但是參與該過程的重要調(diào)控因子KLF1和BCL11A的敲除并不能在成年期有效開啟γ-珠蛋白基因的表達,提示更多的調(diào)控因子參與了γ-向β-珠蛋白基因的表達轉(zhuǎn)換[3]。本研究通過對不同組織來源細胞間γ-和β-珠蛋白基因差異表達的兩組RNA-seq數(shù)據(jù)進行分析,預(yù)測潛在的γ-和β-珠蛋白基因表達調(diào)控因子,以期對γ-和β-珠蛋白基因表達調(diào)控的研究提供一定的指導。
用不同組織來源細胞間γ-和β-珠蛋白基因差異表達的兩組RNA-seq數(shù)據(jù)(美國國立生物信息中心的基因表達綜合數(shù)據(jù)庫GEO,http://www.ncbi.nlm.nih.gob/geo/),其一組的登錄號為GSE102201,是將人類胎肝和成年外周血中的CD34+造血干祖細胞(HSPC)進行體外誘導紅系分化,在分化第11天和第14天分別收樣并用Illumina NextSeq 500進行RNA-seq[4];另一組為GSE107218、GSE53983,是對人類臍帶血和外周血來源的CD34+HSPC分別進行體外誘導紅系分化,并分離紅系分化各個時期如原始紅細胞(proerythroblast,PRO)、早期早幼紅細胞(early basophilic erythroblast,EBASO)、晚期早幼紅細胞(late basophilic erythroblast,LBASO)、中幼紅細胞(polychromatophilic erythroblast,POLY)、晚幼紅細胞(orthochromatic erythroblast,ORTHO),用Illumina HiSeq 2500對其進行RNA-seq[5-6]。
1.2.1 RNA-seq數(shù)據(jù)處理與差異表達基因的分析:用fastq-dump命令下載兩組RNA-seq數(shù)據(jù),并用FastQC和Trimmomatic-0.36分別對數(shù)據(jù)進行質(zhì)量檢測和去除低質(zhì)量和測序接頭序列后用HISAT2和featureCounts分別將序列比對至人類參考基因組上并對應(yīng)到具體的基因得到相應(yīng)的counts值,完成對該數(shù)據(jù)的定量分析。接著用DESeq2對相同分化時期不同組織來源細胞間差異表達基因進行分析,篩選P<0.05且│log2 FoldChange│≥1的基因為差異表達基因。
1.2.2 差異表達基因的IPA分析:IPA(Ingenuity Pathway Analysis)是基于龐大的Ingenuity Knowledge Base數(shù)據(jù)庫,可搜索基因、蛋白、疾病與經(jīng)典通路等相關(guān)信息,并預(yù)測分子集群參與的經(jīng)典通路、生物過程、上游調(diào)控子等信息[7]。本研究利用IPA對相應(yīng)差異表達基因進行上游調(diào)控因子的預(yù)測。
1.2.3 差異基因編碼蛋白以及上游調(diào)控因子的相互作用分析及關(guān)鍵基因的預(yù)測:將差異表達基因編碼蛋白以及其預(yù)測出的上游調(diào)控因子一起導入STRING數(shù)據(jù)庫,分析各因子間的相互作用,進而用Cytoscape中的CentiScape插件預(yù)測其調(diào)控關(guān)鍵基因。
從GSE102201數(shù)據(jù)中篩選出分化第11天外周血與胎肝來源細胞間差異表達基因為1 857個,分化第14天的差異表達基因為1 530個,共同的差異表達基因為635個;從GSE107218、GSE53983數(shù)據(jù)庫中篩選出原始紅細胞時期外周血與臍帶血來源細胞間差異表達基因為578個,早期早幼紅細胞時期為610個,晚期早幼紅細胞時期為358個,中幼紅細胞時期為1 987個,晚幼紅細胞時期為1 812個,共同的差異表達基因為173個(表1)。
不同的組織來源決定了γ-和β-珠蛋白基因的差異表達模式,因此差異表達基因的上游調(diào)控因子也可能是潛在的調(diào)控因子。通過IPA對外周血與胎肝來源間不同分化時期共有的差異表達基因進行上游調(diào)控因子的預(yù)測,共預(yù)測出111個;對外周血與臍帶血來源間不同分化時期共有的差異表達基因進行上游調(diào)控因子的預(yù)測,共預(yù)測出30個,如表2所示前20個。
過STRING數(shù)據(jù)庫和Cytoscape對外周血與胎肝來源間不同分化時期共有的635個差異表達基因及其預(yù)測出的111個上游調(diào)控因子進行蛋白質(zhì)間相互作用分析和展示(圖1),并利用Centiscape計算蛋白質(zhì)間相互作用的強度, 按照Degree unDir大小進行排序,預(yù)測出148個潛在的調(diào)控因子(其Degree unDir大于BCL11A); 對外周血與臍帶血來源間不同分化時期共有的173個差異表達基因及其預(yù)測出的30個上游調(diào)控因子進行同樣的分析,共預(yù)測出41個潛在的調(diào)控因子。其中,共同預(yù)測出潛在的調(diào)控因子有14個,為MAPK1、TNF、IFNG、MPO、LGALS3、CEBPA、BRD2、COL18A1、CA2、SELPLG、COL4A5、THBD、MAPKAPK3、CAMK2D。
圖1 外周血與胎肝來源間差異表達基因及上游調(diào)控因子間的蛋白質(zhì)間相互作用網(wǎng)絡(luò)圖Fig 1 Protein-protein interaction network of differentially expressed genes and upstream regulators derived from peripheral blood and fetal liver
γ-和β-珠蛋白基因表達受眾多調(diào)控因子的調(diào)控,大量有關(guān)γ-和β-珠蛋白差異表達組織轉(zhuǎn)錄組數(shù)據(jù)的出現(xiàn),使利用生物信息學手段挖掘更多參與珠蛋白表達的調(diào)控因子成為可能。本研究通過對珠蛋白基因差異表達相關(guān)的RNA-seq結(jié)果進行分析,利用相應(yīng)的共有差異表達基因及其預(yù)測的上游調(diào)控因子進行蛋白質(zhì)間相互作用網(wǎng)絡(luò)的構(gòu)建,其中包括BCL11A、NF-E2、GATA1、GATA2、YY1等已知的γ-和β-珠蛋白基因表達調(diào)控因子,并預(yù)測到14個潛在的調(diào)控因子。其中預(yù)測出的前3個潛在因子MAPK1、TNF、IFNG均與β類珠蛋白基因的表達有關(guān),如MAPK1參與到了一些小分子藥物通過表觀修飾改變影響γ-珠蛋白基因表達的過程中[8],除此之外,在紅系分化過程當中,G蛋白偶聯(lián)受體也可通過JUN和MAPK1信號通路激活γ-珠蛋白基因的表達[9-10];IFNG可通過NF-κB/Jun信號通路抑制活化素A/NF-E2對紅系基因包括ζ-珠蛋白基因的表達激活作用[11],也發(fā)現(xiàn)IFNG在臍帶血、成年外周血來源的紅細胞中均可影響珠蛋白基因的表達,而且在臍帶血、成年外周血來源的紅細胞中均可影響珠蛋白基因的表達,而且在鐮刀型細胞貧血癥和地中海貧血患者來源的紅系祖細胞中IFNG可抑制γ-珠蛋白基因的表達[12], TNF的單克隆抗體在治療強直性脊柱炎(ankylosing spondylitis, AS)時也可明顯提升血紅蛋白的表達水平[13]。而預(yù)測出的潛在的γ-和β-珠蛋白基因表達調(diào)控因子的準確性需要后續(xù)的分子生物學實驗進行驗證。