張從紅 馮華君 周春玲 王丁婷 趙飛鵬 趙沖 許勝恩 覃綱
頭頸部惡性腫瘤是一類常見的嚴(yán)重影響人類健康的疾病,據(jù)2018年全球癌癥統(tǒng)計(jì),每年有超過80萬新發(fā)病例被診斷[1],且大約90%的病例在病理上屬于鱗狀細(xì)胞癌。目前,大多數(shù)HNSCC在初診時即表現(xiàn)為局部晚期或伴有淋巴結(jié)轉(zhuǎn)移,患者通常被給予手術(shù)、放療、化療或幾種干預(yù)措施相結(jié)合的治療方案,但約有40%~60%的經(jīng)治患者無法從上述治療中受益,主要原因?yàn)槟[瘤局部復(fù)發(fā)、向身體其他部位轉(zhuǎn)移以及治療抵抗[2,3]。因此,研究HNSCC發(fā)生、發(fā)展的潛在機(jī)制,鑒定HNSCC的特異性分子標(biāo)志,有利于HNSCC的早期診治與預(yù)后分析,最終提高患者生存率、改善生存質(zhì)量。
近年來,隨著高通量測序技術(shù)的進(jìn)步與基因芯片的興起,生物信息學(xué)步入蓬勃發(fā)展的階段,這為基因水平研究疾病提供了便捷。大量基因改變形成的差異基因被證實(shí)與腫瘤的發(fā)生、發(fā)展有關(guān),基因表達(dá)譜芯片已被廣泛用于探索與腫瘤診斷、預(yù)后和治療相關(guān)的差異基因[4,5]。目前,許多研究者在HNSCC相關(guān)生物信息學(xué)分析方面作出了貢獻(xiàn)。例如,Yang B等[6]基于GSE6791數(shù)據(jù)集鑒定了15個HNSCC相關(guān)hub基因,其中 4 個基因(PSMA7、ITGA6、ITGB4、APP)與HNSCC預(yù)后差相關(guān),推測其為HNSCC診斷及預(yù)后的潛在生物學(xué)標(biāo)志。Yang K等[7]對GEO數(shù)據(jù)集(GSE6631、GSE58911)和 TCGA 中 HNSCC 數(shù)據(jù)進(jìn)行系統(tǒng)的生物信息學(xué)分析,結(jié)果表明SERPINE1、PLAU和ACTA1在調(diào)節(jié)HNSCC的發(fā)生和進(jìn)展中起重要作用,可作為HNSCC診斷及預(yù)后的關(guān)鍵生物標(biāo)志。此外,Zhao L 等[8]基于 GSE6631、GSE58911、GSE83519數(shù)據(jù)集進(jìn)行生信分析,鑒定了SPP1、ITGA6、TMPRSS11D、MMP1、LAMC2、FAT1、ACTA1、SERPINE1和CEACAM1共9個HNSCC相關(guān)hub基因。然而,上述研究對于HNSCC關(guān)鍵基因的鑒定結(jié)果并不一致,分析其原因可能是樣本、研究人員以及平臺不同,導(dǎo)致基因芯片數(shù)據(jù)不穩(wěn)定造成的。
本研究適當(dāng)增加樣本量及數(shù)據(jù)集,對5組HNSCC相關(guān)表達(dá)譜數(shù)據(jù)進(jìn)行差異性分析,提取5組芯片數(shù)據(jù)中同時出現(xiàn)的差異表達(dá)基因作為后續(xù)分析的基礎(chǔ),以期提高原始數(shù)據(jù)的穩(wěn)定性以及篩選結(jié)果的可靠性。通過系統(tǒng)的生物信息學(xué)分析,鑒定HNSCC的關(guān)鍵基因及信號通路,初步探索其發(fā)病機(jī)制,為HNSCC早期診斷、預(yù)后及靶向治療提供潛在的分子生物學(xué)標(biāo)志。
HNSCC與癌旁正常組織的基因芯片數(shù)據(jù)信息從GEO數(shù)據(jù)庫中查找獲取。本研究涉及的芯片數(shù)據(jù)為 GSE29330、GSE59102、GSE31056、GSE30784、GSE 58911,種屬均為homo sapiens,類型均為expression profiling by array,樣本大小、分類及平臺信息見表1。
表1 HNSCC相關(guān)GEO數(shù)據(jù)信息
2.1 原始數(shù)據(jù)處理及差異基因篩選
在 R(version 3.5.2)語言環(huán)境中,利用 limma、impute、gplots等軟件包處理5組HNSCC原始數(shù)據(jù),多個探針對應(yīng)一個基因的情況表達(dá)值取均值。處理后數(shù)據(jù)采用經(jīng)驗(yàn)貝葉斯檢驗(yàn)分析基因在HNSCC與正常組織中表達(dá)的差異性,本研究定義差異基因篩選標(biāo)準(zhǔn)為P<0.05且|log2差異倍數(shù)|>1。采用VennDiagram軟件包提取5組芯片數(shù)據(jù)中共有差異基因進(jìn)行后續(xù)分析。
2.2 差異基因富集分析
DAVID數(shù)據(jù)庫是一款廣泛使用的在線免費(fèi)基因功能注釋、可視化、數(shù)據(jù)整合分析軟件,本研究將差異表達(dá)基因?qū)隓AVID V6.8,通過在線分析的方式獲得上調(diào)差異基因在GO與KEGG通路中具體的富集情況;用同樣的方法研究下調(diào)差異基因。
2.3 蛋白質(zhì)相互作用的PPI網(wǎng)絡(luò)分析
將差異表達(dá)基因?qū)隨tring11.0,有效結(jié)合分?jǐn)?shù)的值設(shè)定為0.7以上,建立PPI網(wǎng)絡(luò)以反映蛋白質(zhì)之間的作用關(guān)系。去除網(wǎng)絡(luò)中與其他蛋白沒有相互作用的孤立節(jié)點(diǎn)后,把網(wǎng)絡(luò)關(guān)系表準(zhǔn)確地導(dǎo)入到Cytoscape 3.7.1軟件,建立可視化網(wǎng)絡(luò)模型,以degree得分篩選hub基因。
2.4 hub基因生存分析及功能富集分析
基因表達(dá)譜交互式分析(gene expression profiling interactive analysis,GEPIA)是一個基于TCGA和GTEx項(xiàng)目的在線生信分析工具(http://gepia.cancerpku.cn/),能夠運(yùn)用可視化分析方法剖析大量的核糖核酸測序的表達(dá)譜數(shù)據(jù),這些數(shù)據(jù)通常來源于GTEx與TCGA中多種多樣的腫瘤以及部分正常樣本。本研究采用GEPIA在線分析hub基因,篩選與HNSCC總體生存率相關(guān)的基因,分析其在HNSCC中的差異性表達(dá),并對這些基因進(jìn)行通路富集分析。
經(jīng)R軟件分析,分別從數(shù)據(jù)集GSE29330、GSE59102、GSE31056、GSE30784、GSE58911 中提取到差異表達(dá)基因 2198、2840、2124、1799、637 個(表2)。全面系統(tǒng)地剖析5個數(shù)據(jù)集中的差異表達(dá)基因,經(jīng)過VennDiagram研究分析后獲得215個共同差異表達(dá)基因,其中上調(diào)基因數(shù)量較少,共有79個,其余均為表達(dá)下調(diào)的基因(圖1)。
表2 5組HNSCC數(shù)據(jù)集中的差異表達(dá)基因數(shù)目(P<0.05,|log2差異倍數(shù)|>1)
圖1 差異表達(dá)基因韋恩圖
為了了解差異基因參與的生物過程、在細(xì)胞中的組成以及分子水平的功能,本次研究在DAVID V6.8數(shù)據(jù)庫的基礎(chǔ)上,系統(tǒng)地剖析了GO富集情況,所得結(jié)果如圖2與圖3所示。細(xì)胞粘附、細(xì)胞外基質(zhì)組織、表皮發(fā)育等40個GO條目中均有上調(diào)基因參與(P<0.01),圖中僅顯示FDR<0.01的前 13個GO條目(圖2)。而下調(diào)基因主要富集在角質(zhì)化、胞外區(qū)、氧化還原酶活性等18個GO條目(P<0.01)(圖 3)。
圖2 上調(diào)基因GO富集分析結(jié)果(P<0.01且FDR<0.01)
圖3 下調(diào)基因GO富集分析結(jié)果(P<0.01)
為了從整體上了解差異基因的作用方式,本文在DAVID V6.8的基礎(chǔ)上,全面地剖析了其KEGG通路富集狀況,具體的結(jié)果如圖4與圖5所示。由此可見,上調(diào)基因主要在包括黏著斑在內(nèi)的14條信號通路上富集(P<0.05),詳盡的通路信息如圖4所示。下調(diào)基因主要富集在包括代謝途徑在內(nèi)的6信號通路(P<0.05),詳見圖 5。
圖4 上調(diào)基因KEGG通路富集分析結(jié)果(P<0.05)
圖5 下調(diào)基因KEGG通路富集分析結(jié)果(P<0.05)
差異基因?qū)隨tring數(shù)據(jù)庫,設(shè)置結(jié)合分?jǐn)?shù)>0.7,去除孤立結(jié)節(jié),生成PPI網(wǎng)絡(luò)關(guān)系表,Cytoscape軟件可視化PPI網(wǎng)絡(luò)(圖6);基于PPI網(wǎng)絡(luò)分析篩選出16個degree得分≥7的hub基因,分別為:ITGA5、COL1A1、COL4A2、COL4A1、ITGA3、COL12A1、CXCL8、 COL10A1、 COL5A2、 LAMB3、 LAMC2、MMP13、MMP3、ITGA6、PLAUR、SERPINE1(表 3)。
圖6 差異基因編碼蛋白的PPI網(wǎng)絡(luò)(結(jié)合分?jǐn)?shù)>0.7)
表3 PPI網(wǎng)絡(luò)中得分較高的Hub基因(Degree得分≥7)
為了評估hub在HNSCC中表達(dá)的意義,本研究將hub基因?qū)隚EPIA在線分析,結(jié)果顯示PLAUR(P=0.0092)、ITGA5(P=0.0024)、LAMB3(P=0.011)、LAMC2(P=0.013)、SERPINE1(P=0.0025)、ITGA6(P=0.036)、ITGA3(P=0.045)的差異性表達(dá)與HNSCC 總體生存率相關(guān)(P<0.05)(圖 7)。與正常頭頸部組織相比,上述基因在HNSCC中表達(dá)上調(diào)(P<0.01)(圖8),這一結(jié)果與基于GEO數(shù)據(jù)庫的差異分析結(jié)果一致。為了初步探索上述基因的作用機(jī)制,我們將其導(dǎo)入DAVID V6.8進(jìn)行通路富集分析,結(jié)果顯示這7個與HNSCC總體生存率相關(guān)的hub基因在多條信號通路上富集,表4列出富集最顯著(富集基因數(shù)目最多且P值最?。┑那?條信號通路。
圖7 HNSCC中 PLAUR、ITGA5、LAMB3、LAMC2、SERPINE1、ITGA6、ITGA3 表達(dá)與患者預(yù)后的生存曲線(P<0.05)
圖8 HNSCC(T)與正常組織(N)中 PLAUR、ITGA5、LAMB3、LAMC2、SERPINE1、ITGA6、ITGA3 表達(dá)的差異(P<0.01)
表4 7個與HNSCC總體生存率相關(guān)的hub基因的KEGG通路富集分析(P<0.01)
基于基因芯片及高通量測序技術(shù)的生物信息學(xué)分析方法為基因水平研究疾病提供了便捷,為了挖掘HNSCC發(fā)生、發(fā)展的關(guān)鍵基因,初步探索其發(fā)病機(jī)制,本研究對GEO數(shù)據(jù)庫中5個HNSCC數(shù)據(jù)集進(jìn)行了系統(tǒng)全面的生物信息學(xué)分析。共鑒定了215個基因在HNSCC與癌旁正常組織中呈現(xiàn)差異性表達(dá),其中上調(diào)基因數(shù)量較少,共有79個,其余均為表達(dá)下調(diào)的基因。此外,還剖析了這兩種差異基因的GO與KEGG通路富集情況,從整體上了解差異基因的主要功能及作用方式。借助String數(shù)據(jù)庫建立PPI網(wǎng)絡(luò),掌握了差異基因編碼蛋白之間的互相作用,以degree得分≥7篩選出16個hub基因。接著,將16個hub基因?qū)隚EPIA在線分析以進(jìn)一步了解hub基因在HNSCC中差異性表達(dá)的臨床意義,發(fā)現(xiàn) PLAUR、ITGA5、LAMB3、LAMC2、SERPINE1、ITGA6、ITGA3 7個hub基因在HNSCC中高表達(dá),且與HNSCC總體生存率相關(guān)。KEGG通路富集分析發(fā)現(xiàn)上述基因在3條癌癥相關(guān)信號通路上高度富集。
許多研究表明,纖溶酶原/纖溶酶系統(tǒng)尤其是其成員 uPA(PLAU)、uPAR(PLAUR)、PAI-1(SERPINE1)通過調(diào)節(jié)細(xì)胞外基質(zhì)降解、生長因子和金屬蛋白酶的激活、細(xì)胞遷移等對于組織的修復(fù)與重塑有重要意義。對于癌癥而言,該系統(tǒng)可調(diào)節(jié)腫瘤的生長、侵襲、轉(zhuǎn)移以及血管生成和纖維化的基本過程[9,10]。有研究者對結(jié)直腸癌中纖溶酶原激活系統(tǒng)蛋白的表達(dá)情況進(jìn)行免疫組化定量檢測,并且進(jìn)一步剖析了臨床病理參數(shù)與上述蛋白表達(dá)情況之間的相關(guān)性,研究結(jié)果顯示,結(jié)直腸癌的發(fā)展和肝轉(zhuǎn)移與uPAR、PAI-1等基因的過表達(dá)存在緊密聯(lián)系[11]。不僅如此,有研究發(fā)現(xiàn)uPAR、PAI-1在口腔鱗狀細(xì)胞癌中的表達(dá)情況與患者生存率呈負(fù)相關(guān)[12,13]。結(jié)合本研究及上述研究成果,我們推測PLAUR、SERPINE1在HNSCC中高表達(dá)與患者預(yù)后差相關(guān)。ITGA5、ITGA6、ITGA3編碼產(chǎn)物為整合素α鏈家族成員。研究表明,膽囊癌的進(jìn)展與ITGA6過表達(dá)存在相關(guān)性;此外,膽囊癌的淋巴結(jié)轉(zhuǎn)移、腫瘤細(xì)胞分化差等也與該基因存在一定的聯(lián)系,ITGA6可以作為膽囊癌預(yù)后不良的分子標(biāo)志[14]。Huang Y等[15]研究者采用蛋白質(zhì)印跡及免疫組織化學(xué)分析發(fā)現(xiàn)ITGA3在肝內(nèi)膽管癌細(xì)胞系和肝內(nèi)膽管癌患者中過度表達(dá),高表達(dá)的ITGA3不僅可以促進(jìn)肝內(nèi)膽管癌細(xì)胞增殖和細(xì)胞周期進(jìn)程,而且對淋巴結(jié)轉(zhuǎn)移和腫瘤的進(jìn)展也有促進(jìn)作用,提示ITGA3的異常表達(dá)與肝內(nèi)膽管癌患者不良預(yù)后相關(guān)?;騆AMB3與LAMC2編碼產(chǎn)物為層粘連蛋白,是基底膜蛋白家族的成員。作為基底膜區(qū)的主要成分,LAMB3被發(fā)現(xiàn)與HNSCC淋巴結(jié)轉(zhuǎn)移陽性密切相關(guān),抑制LAMB3可通過下調(diào)EMT相關(guān)蛋白減少細(xì)胞遷移和侵襲;此外,抑制LAMB3能增加順鉑在HNSCC細(xì)胞中的細(xì)胞毒性[16]。而LAMC2在結(jié)直腸癌中表達(dá)增高,與結(jié)直腸癌患者不良預(yù)后也存在一定的相關(guān)性[17]。結(jié)合本研究及上述研究成果,我們推測PLAUR、ITGA5、LAMB3、LAMC2、SERPINE1、ITGA6 與 ITGA3 對 HNSCC 癌細(xì)胞增殖能力及侵襲力有舉足輕重的意義,且與HNSCC患者不良預(yù)后相關(guān),是HNSCC早期診斷、靶向治療的潛在分子標(biāo)志。
此外,本研究將 PLAUR、ITGA5、LAMB3、LAMC2、SERPINE1、ITGA6、ITGA3 7 個與 HNSCC 總體生存率相關(guān)的hub基因?qū)隓AVID V6.8數(shù)據(jù)庫,進(jìn)而剖析其通路富集情況,研究結(jié)果表明這些基因主要富集在ECM-受體相互作用。此外,黏著斑與PI3KAkt信號通路中也存在這些基因的富集。ECM即細(xì)胞外基質(zhì),由一個復(fù)雜的大分子網(wǎng)絡(luò)組成,它們可以形成三維超分子結(jié)構(gòu),有特殊的生化特征以及許多生物力學(xué)優(yōu)勢,通過連接特定受體如整聯(lián)蛋白、同癸烷和盤狀結(jié)構(gòu)受體可以協(xié)助細(xì)胞的增殖、遷移以及分化[18,19]。ECM可調(diào)節(jié)組織的發(fā)育和穩(wěn)態(tài),其調(diào)節(jié)失調(diào)有助于腫瘤的進(jìn)展[20,21]。此外,黏著斑及PI3K-Akt信號通路也是重要的腫瘤相關(guān)信號通路,參與多種惡性腫瘤的發(fā)生、發(fā)展[22-24]。Fan QC等[25]研究發(fā)現(xiàn),敲除ITGA5可抑制口腔鱗狀細(xì)胞癌中癌細(xì)胞的增殖與遷移,而敲除ITGA5后磷酸化-PI3K、磷酸化-AKT和磷酸化-ERK的表達(dá)也隨之顯著下降,表明ITGA5能夠激活PI3K/AKT信號通路進(jìn)而有助于口腔鱗狀細(xì)胞癌的發(fā)展。此外,Zhang H等[26]多位學(xué)者的研究結(jié)果表明,LAMB3能夠調(diào)節(jié)PI3K/Akt信號通路,進(jìn)而介導(dǎo)胰腺癌的凋亡、增殖、侵襲和轉(zhuǎn)移行為。結(jié)合本研究及上述研究成果,我們推測上述3條信號通路對闡明HNSCC關(guān)鍵基因在HNSCC中的作用機(jī)制有重要意義。
綜上,利用生物信息學(xué)方法,能系統(tǒng)全面地剖析HNSCC的關(guān)鍵基因及信號通路。在本研究中,分別鑒定了7個與HNSCC發(fā)生、發(fā)展及預(yù)后相關(guān)的關(guān)鍵基因(PLAUR、ITGA5、LAMB3、LAMC2、SERPINE1、ITGA6、ITGA3),初步探索其作用機(jī)制,為 HNSCC 早期診治和預(yù)后分析提供了潛在的分子標(biāo)志。然而,本研究所得結(jié)論尚缺乏驗(yàn)證,有待于進(jìn)一步的體、內(nèi)外實(shí)驗(yàn)研究。