吳師雄 謝 靜 方佳宇 周緒紅
武漢大學(xué)中南醫(yī)院耳鼻咽喉-頭頸外科 湖北 武漢 430071
鼻咽癌(nasopharyngeal carcinoma,NPC)是頭頸部最常見的惡性腫瘤之一,由于NPC發(fā)病部位較隱蔽,并且早期無明顯癥狀,大部分患者難以在早期確診[1]。目前,因?yàn)榇蠖鄶?shù)鼻咽癌為鱗狀細(xì)胞癌,治療鼻咽癌首選的方法為放療。為了進(jìn)一步提高患者的生存率,常采用手術(shù)治療、化療、放療聯(lián)合進(jìn)行的方法[2]。在過去的研究中,研究差異表達(dá)基因最常見的研究方向是分子靶向和診斷標(biāo)志物,如Jiang等[3]的研究證實(shí),6-高甲基化基因與鼻咽癌患者生存負(fù)相關(guān),盡管如此,我們?nèi)孕柽M(jìn)一步對(duì)鼻咽癌的發(fā)生發(fā)展機(jī)制進(jìn)行深入探索。
基因芯片技術(shù)可以高通量、大規(guī)模檢測(cè)腫瘤基因,并且因其具有可自動(dòng)化、集成化等優(yōu)點(diǎn)而被廣泛應(yīng)用于各個(gè)領(lǐng)域[4]。本研究通過基因芯片技術(shù)及生物信息學(xué)技術(shù),將鼻咽癌組織和正常鼻咽部組織基因表達(dá)譜數(shù)據(jù)進(jìn)行生物信息學(xué)分析,篩選出相關(guān)差異表達(dá)基因,對(duì)篩選出的基因進(jìn)行構(gòu)建加權(quán)基因共表達(dá)網(wǎng)絡(luò),并且對(duì)差異基因進(jìn)行聚類及功能富集分析,同時(shí)構(gòu)建蛋白互作網(wǎng)絡(luò),進(jìn)一步篩選出核心基因,并將對(duì)兩者結(jié)果取交集,最終得到7個(gè)核心基因,可為鼻咽癌提供更多的潛在生物標(biāo)記物以供后續(xù)研究。
1.1 芯片數(shù)據(jù)集下載和實(shí)驗(yàn)設(shè)計(jì)從NCBI的GEO數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/)下載了數(shù)據(jù)集GSE13597和相應(yīng)的NPC臨床資料,該數(shù)據(jù)集包含了25個(gè)NPC樣本和3個(gè)正常樣本。臨床資料包括組織學(xué)分級(jí)、病理分期及大量隨訪資料。本研究利用數(shù)據(jù)集和臨床資料尋找差異基因并構(gòu)建加權(quán)基因共表達(dá)網(wǎng)絡(luò)。另外,我們還從GEO數(shù)據(jù)庫中下載了GSE12452數(shù)據(jù)集,此數(shù)據(jù)集涉及31個(gè)NPC樣本、10個(gè)正常樣本和相應(yīng)的臨床信息,進(jìn)一步驗(yàn)證了我們的核心基因。
1.2 芯片數(shù)據(jù)預(yù)處理和差異基因篩選使用R軟件 中 的“Affy”包[5]進(jìn) 行 歸 一 化 處 理 數(shù) 據(jù) 集GSE12452,采用RMA方法進(jìn)行背景校正。最后,我們利用R軟件中的“l(fā)imma”包[6]篩選31個(gè)NPC樣本和10個(gè)正常樣本之間的差異基因。在此我們?cè)O(shè)定差異基因篩選標(biāo)準(zhǔn)為錯(cuò)誤發(fā)現(xiàn)率(FDR)<0.05,基因表達(dá)值倍數(shù)變化(fold change,|log2FC|)≥1。
1.3 構(gòu)建加權(quán)基因共表達(dá)網(wǎng)絡(luò)利用R軟件的“WGCNA”包[7]來構(gòu)建數(shù)據(jù)集GSE13597中28個(gè)NPC樣本的838個(gè)差異基因的共表達(dá)網(wǎng)絡(luò)。首先,通過皮爾森相關(guān)分析檢測(cè)出離群的微陣列樣本,該結(jié)果顯示沒有離群的樣本,我們保留了來自差異基因分析的微陣列數(shù)據(jù)。其次,我們確定了拓?fù)浞治龅能涢撝郸?6,然后將鄰接矩陣轉(zhuǎn)化為拓?fù)渲丿B矩陣(TOM)[8]。在此同時(shí),我們使用TOM進(jìn)行層次聚類,并且使用動(dòng)態(tài)樹切割算法進(jìn)行模塊篩選。模塊特征基因是各模塊基因表達(dá)矩陣中最重要的組成部分,它可以代表模塊基因的表達(dá)譜。
1.4 重要基因模塊的標(biāo)識(shí)和功能注釋通過WGCNA的模塊-性狀關(guān)系分析,來計(jì)算模塊與臨床表型的相關(guān)性,組織學(xué)分級(jí)和病理分期均被選為合適的臨床表型。然后,我們可以分析與組織學(xué)分級(jí)和病理分期的臨床表型相關(guān)的基因模塊。為了研究草綠色模塊的主要功能途徑,我們使用R軟件中的“clusterProfiler”包[9]進(jìn)行了基因本體(gene ontology,GO)及京都基因與基因組百科全書通路(Kyoto Encyclopedia of Genes and Genomes pathway,KEGG pathway)分析。在這一步中,將具有統(tǒng)計(jì)學(xué)意義的臨界值設(shè)置為P<0.05。
1.5 蛋白互作網(wǎng)絡(luò)分析蛋白互作網(wǎng)絡(luò)(proteinprotein interation,PPI)可以為細(xì)胞活動(dòng)的分子機(jī)制提供信息。使用字符串?dāng)?shù)據(jù)庫(https://string-db.org/)[10]來構(gòu)建蛋白互作網(wǎng)絡(luò),設(shè)置閾值為綜合評(píng)分>0.4。將所得結(jié)果利用Cytoscape[11]來可視化所有核心基因的網(wǎng)絡(luò)圖,然后計(jì)算默認(rèn)參數(shù)下蛋白互作網(wǎng)絡(luò)的屬性。最后,我們進(jìn)行連接度分析,并識(shí)別核心基因??偠灾?,我們通過基因表達(dá)來重建生物網(wǎng)絡(luò),并希望在這一步驟中發(fā)現(xiàn)新的規(guī)律。
2.1 差異表達(dá)基因的篩選我們使用R軟件中的“l(fā)imma”包來評(píng)估數(shù)據(jù)過濾后的質(zhì)量。在這一步中,我們篩選出了838個(gè)差異基因,包括上調(diào)和下調(diào)的基因(如圖1)。
圖1 鼻咽癌組織和正常鼻咽部上皮組織差異基因表達(dá)熱圖
2.2 加權(quán)基因共表達(dá)網(wǎng)絡(luò)的構(gòu)建利用R軟件中的“WGCNA”包來構(gòu)建差異基因的共表達(dá)網(wǎng)絡(luò)(如圖2),通過聚類分析篩選出表達(dá)譜相似的基因模塊,因?yàn)榫哂姓{(diào)控關(guān)系或相互作用的基因往往會(huì)表現(xiàn)出相似的表達(dá)模式。選擇軟閾值為β=6,以確保我們的研究在一個(gè)無標(biāo)度網(wǎng)絡(luò)中。我們?cè)谶@一步一共篩選了4個(gè)聚類的基因模塊,用作于下一步的分析。
圖2 加權(quán)基因共表達(dá)網(wǎng)絡(luò)的軟閾值測(cè)定
2.3 重要模塊的標(biāo)識(shí)和功能注釋在這4個(gè)基因模塊中,每種顏色代表一個(gè)與腫瘤分級(jí)和分期顯著相關(guān)的基因模塊。通過模塊-特征關(guān)系分析,我們可以知道草綠色模塊在腫瘤的病理分期中具有最高的基因顯著性。所以我們選擇草綠色模塊作為研究的重點(diǎn)模塊,并將其用于后續(xù)的分析。為了找到與NPC密切相關(guān)的關(guān)鍵模塊及其生物學(xué)過程,我們對(duì)所有基因模塊進(jìn)行了GO富集分析和KEGG通路分析(如圖3)。GO富集分析顯示,差異表達(dá)基因主要涉及蛋白同化作用、調(diào)控細(xì)胞增殖、細(xì)胞黏附等分子功能和生物學(xué)過程。KEGG信號(hào)通路分析顯示顯著富集的通路包括細(xì)胞周期、癌癥通路、氨基糖和核苷酸糖代謝、癌癥中的轉(zhuǎn)錄失調(diào)等。
圖3 模塊功能注釋
2.4 蛋白互作網(wǎng)絡(luò)分析我們構(gòu)建了蛋白互作網(wǎng)絡(luò)分析對(duì)差異基因的蛋白相互作用進(jìn)行可視化分析(如圖4),根據(jù)相關(guān)性排序,取節(jié)點(diǎn)數(shù)目最多,也就是相關(guān)度最高的前10位的核心蛋白,并且與共表達(dá)網(wǎng)絡(luò)中的草綠色模塊里的基因取交集,最后得到7個(gè)最終的核心基因:NCAPG、CCNA 2、CDC45、TTK、RACGAP1、CCNB1、KIF11。
圖4 鼻咽癌臨床特征相關(guān)模塊的鑒定及蛋白互作網(wǎng)絡(luò)的構(gòu)建
鼻咽癌主要來源于鼻咽部上皮細(xì)胞,具有極強(qiáng)的轉(zhuǎn)移能力[12]。是中國(guó)南部及東南亞最常見的頭頸部惡性腫瘤。此前多項(xiàng)研究表明鼻咽癌與EB病毒等相關(guān)[13]。越早發(fā)現(xiàn),鼻咽癌的治療療效越好。它的發(fā)生發(fā)展常涉及到多個(gè)基因的改變,因此,全面了解鼻咽癌的分子機(jī)制對(duì)疾病的診斷和治療至關(guān)重要。隨著二代測(cè)序技術(shù)的快速發(fā)展,生物信息學(xué)技術(shù)使廣大研究者們更易成規(guī)模地檢測(cè)出腫瘤的基因變化,并且已經(jīng)在各大腫瘤的研究領(lǐng)域得到廣泛應(yīng)用。本研究通過對(duì)GSE12452的差異基因分析得到838個(gè)差異基因,并將此結(jié)果納入另一基因組GSE13597中構(gòu)建加權(quán)基因共表達(dá)網(wǎng)絡(luò),并且經(jīng)過GO富集和KEGG通路分析揭示了差異基因主要參與的細(xì)胞生物學(xué)過程。最后經(jīng)過與差異基因的蛋白互作網(wǎng)絡(luò)相互取交集,獲得了相關(guān)性最強(qiáng)的7個(gè) 核 心 基 因NCAPG、CCNA 2、CDC45、TTK、RACGAP1、CCNB1、KIF11。并 且 使 用GO及KEGG數(shù)據(jù)庫對(duì)目的基因進(jìn)行分析,發(fā)現(xiàn)這些差異基因的功能主要集中在細(xì)胞周期相關(guān)的分子生物學(xué)功能和通路。細(xì)胞周期是細(xì)胞增殖的基本過程,其活性的增加可導(dǎo)致腫瘤的進(jìn)展[14],這與上述生物信息學(xué)分析的結(jié)論一致。
在這7個(gè)核心基因中,我們發(fā)現(xiàn)NCAPG與細(xì)胞的侵襲、遷移、增殖和凋亡均相關(guān)[15],NCAPG是染色質(zhì)濃縮復(fù)合體[16]的重要組成部分,會(huì)對(duì)細(xì)胞生長(zhǎng)產(chǎn)生負(fù)面影響[17]。而RACGAP1是鳥嘌呤三磷酸酶激活蛋白家族的成員,與細(xì)胞的侵襲相關(guān)[18],可促進(jìn)腫瘤的發(fā)展[19]。在之前的研究中,我們可以得知核心基因CCNA 2、RACGAP1、CCNB1與之前的研究結(jié)果一致[20-22],在我們的研究中進(jìn)一步驗(yàn)證了其與鼻咽癌在更深層次上的研究?jī)r(jià)值,同時(shí),我們也發(fā)現(xiàn)了新的基因NCAPG、CDC45、TTK、KIF11。這4個(gè)基因雖然在其他腫瘤中被證實(shí)有著相應(yīng)的作用[23-26],但與鼻咽癌發(fā)生發(fā)展過程的相關(guān)性研究暫未開展,這為我們?nèi)蘸筮M(jìn)一步的研究提供了新的方向。
總之,我們通過基因芯片技術(shù)及系統(tǒng)的生物信息學(xué)分析,對(duì)一系列差異基因進(jìn)行了研究,為鼻咽癌提供了更多的潛在生物標(biāo)記物,對(duì)研究鼻咽癌發(fā)生發(fā)展的分子機(jī)制提供了有效指導(dǎo)。