黃河 李成長 彭燕 姜洪波
(1新鄉(xiāng)市中心醫(yī)院(新鄉(xiāng)醫(yī)學院第四臨床學院)呼吸與危重癥醫(yī)學科一,河南 新鄉(xiāng) 453000;新鄉(xiāng)醫(yī)學院 2基礎醫(yī)學院生理學與疾理生理系;3第三附屬醫(yī)院營養(yǎng)科)
肺癌是腫瘤相關死亡的主要病因之一。導致肺癌的因素很多,吸煙是引起肺癌重要的因素之一〔1〕,可以導致多種類型的肺癌發(fā)生,如小細胞肺癌和鱗狀細胞肺癌〔2,3〕,該方面的研究也較多,但相當一部分肺癌患者從不吸煙〔4〕,他們易罹患非小細胞肺癌(NSCLC)且大部分屬于肺腺癌(ADC),這方面的研究較少,發(fā)病原因及其分子機制尚不明確〔5〕,此外,對于相同的治療方案,吸煙人群和非吸煙人群NSCLC的治療效果并不一致〔6〕,提示兩者發(fā)病機制并不相同。目前幾乎所有肺癌治療的靶向藥物在治療過程中都會出現繼發(fā)耐藥現象〔7〕,目前尚未發(fā)現有關NSCLC患者中NCAPG基因的相關研究報道。本研究通過檢索美國國立衛(wèi)生研究院GEO數據庫的基因表達譜數據,探討非吸煙肺癌患者NSCLC發(fā)病的分子生物學機制。
1.1基因表達譜數據的獲取 檢索GEO數據庫(Gene Expression Omnibus),選取GSE19804和GSE31210兩個基因表達譜數據集作為研究對象,其中,GSE19804包含來自非吸煙人群的60例腫瘤組織樣本和60例正常組織樣本。GSE31210數據集同時包含吸煙與非吸煙人群的標本,僅從該數據集中選取不吸煙人群作為研究對象,包括含115例腫瘤組織樣本和8例正常組織樣本。
1.2差異基因的篩選 基于R語言的差異基因在線分析工具GEO2R對兩個基因表達譜數據集分別進行差異表達分析,獲得差異表達基因(DEGs),差異表達基因的篩選條件為校正后P<0.05和|log2FC(fold change)|>1。然后利用火山圖可視化顯著差異表達基因。 最后,對兩個基因差異表達分析結果取交集,作為最終的差異表達基因。
1.3GO 和KEGG通路富集分析 DEGs的GO富集分析主要包括生物過程、分子功能和細胞組成3個方面。 使用京都基因與基因組百科全書(KEGG)對DEGs相關的生物學通路進行富集分析。DAVID是一個強大的在線基因功能富集分析工具,本研究主要使用DAVID進行GO和KEGG信號通路進行富集分析,P<0.05和基因數大于10作為顯著富集的納入標準。
1.4蛋白互作網絡的構建與關鍵基因的鑒別 基于STRING數據庫利用DEGs構建蛋白-蛋白互作(PPI)網絡。為對數據進行進一步的分析,將蛋白互作信息導入Cytoscape軟件?;贑ytoscape的內置插件Cytohubba對網絡進行拓撲結構分析,基于MCC算法對PPI網絡中的節(jié)點按照度值排序,選取度值排名前10位的基因為關鍵基因。
1.5生存分析 利用Kaplan Meier plotter和GEPIA在線生存分析工具對所鑒別的關鍵基因進行生存分析,研究關鍵基因高表達與NSCLC患者生存時間的關系。參數均采用網站默認設置,P<0.05代表關鍵基因高表達與患者生存時間顯著相關。
2.1差異表達基因的篩選 使用基于R語言的GEO2R在線分析工具分別對GSE19804和GSE31210兩個基因表達譜數據集中不吸煙人群的NSCLC腫瘤組織和正常肺組織樣本進行差異表達基因分析。結果顯示:GSE19804表達譜差異分析共得到456個上調DEGs和950個下調DEGs;GSE31210表達譜差異分析共產生1 342個上調DEGs和1 413個下調DEGs。上述兩個基因表達譜數據差異表達基因的分布情況最終用火山圖可視化展示,見圖1。對兩組基因的上調和下調基因分別取交集,其中上調DEGs 343個、下調DEGs 679個,兩個基因表達譜差異表達分析共得到1 022個共有DEGs。
虛線上灰色點代表上調基因,虛線下灰色的點代表下調基因,黑色的點代表在腫瘤和正常組織中表達差異不顯著的基因圖1 GSE19804 和GSE31210基因表達譜數據集基因差異表達分析結果的火山圖
2.2共有DEGs的GO與KEGG通路富集分析 以P<0.05且基因數大于10作為顯著富集的納入標準,對共有DEGs進行GO和KEGG通路富集分析。選取富集顯著水平排名前10的GO詞匯和通路進行可視化展示,見圖2。結果顯示,GO富集顯著的生物學過程主要包括細胞黏附、細胞外基質組織、血管生成、個體細胞間黏附、白細胞遷移、細胞表面受體信號通路、受體內化、血管生成的正調控等方面。顯著富集的GO分子功能主要體現在肝素結合、鈣離子結合、金屬內肽酶活性、金屬肽酶活性、碳水化合物結合、膠原結合、轉錄激活子活性、RNA聚合酶Ⅱ核心啟動子近端區(qū)域序列特異性結合、Ras鳥苷核苷酸交換因子活性、肌動蛋白結合。顯著富集的GO細胞組分包括細胞外區(qū)域、細胞外空間、蛋白細胞外基質、質膜、質膜的組成部分、膜筏、細胞表面、細胞外泌體、細胞外基質、膜的組成部分等。顯著富集信號通路包括細胞黏附分子(CAMs)、細胞周期、細胞外基質-受體相互作用、癌癥相關轉錄失調等。
A代表GO生物學過程富集分析結果,B代表GO分子功能富集分析結果,C代表GO細胞組分富集分析結果,D代表KEGG通路富集分析結果。柱狀圖長度(-log10 P值)代表富集顯著程度圖2 GO和KEGG富集
2.3PPI網絡的構建 為從系統(tǒng)角度展現與肺癌發(fā)生密切相關的重要基因及它們之間的互作關系。將共有DEGs輸入到STRING數據庫,采用默認參數構建PPI,所構建PPI網絡節(jié)點數為945,邊數為6033,平均節(jié)點度為12.8,局部聚類系數為0.343,PPI富集P值<0.05。提示網絡圖中各基因直接有明顯的互作關系。
2.4關鍵基因鑒別 PPI網絡是典型的無標度網絡,節(jié)點間的連接狀況具有高度不均勻分布性,僅少數基因與多個基因之間存在相互作用,大多數基因只與很少量的其他基因存在互作關系,網絡中少數與其他基因間存在大量互作關系,具有較高的連接度值,處于PPI 網絡中的關鍵位置,被稱為關鍵基因(Hub gene)。在本研究中,按照連接度值,選取排名前10的基因為關鍵基因,分別是CDK1、CCNB1、BUB1B、CCNB2、AURKA、MAD2L1、CDC20、CCNA2、BUB1、NCAPG,見圖3。
深色節(jié)點為根據MCC算法選取的關鍵基因,白色節(jié)點是與這些關鍵基因有直接互作關系的相鄰節(jié)點圖3 基于MCC算法所選取的關鍵基因及與有直接互作關系的節(jié)點形成的蛋白互作網絡
2.5生存分析 選取排名前10的關鍵基因進行Kaplan Meier生存分析,其中CDK1通過GEPIA在線工具分析完成,其余9個關鍵基因利用Kaplan Meier plotter完成,結果表明本文鑒別的所有關鍵基因高表達與肺癌人群的總體存活時間減少存在顯著的相關性(P<0.05),見圖4。
圖4 6個代表性關鍵基因的Kaplan Meier生存分析結果
肺癌是一種發(fā)病率與致死率都很高的疾病,研究表明,每年約有120萬人死于該病〔8〕。NSCLC是肺癌的一種亞型,發(fā)病率占肺癌患者的75%~80%,因此,NSCLC相關方面研究具有重要的理論與現實意義。富谷氨酸WD重復序列蛋白(GRWD)1過表達與腫瘤患者較差的預后密切相關,研究表明,GRWD1 可通過CDK1和 CCNB1促進NSCLC腫瘤細胞的細胞集落的形成〔9〕,這一研究結果提示CDK1和 CCNB1在NSCLC發(fā)生發(fā)展過程中發(fā)揮了重要作用。基于WGCNA方法的研究顯示BUB1B 與CCNB2分別是與肺腺癌和鱗狀細胞癌腫瘤疾病進展相關的關鍵基因,這一研究結論為本研究結果的可靠性提供了更多依據〔10〕?;虮磉_的定量實驗研究顯示,預后較差的NSCLC患者其AURKA基因表達量顯著升高〔11〕,提示AURKA是預后不良的一個重要標志物。Pabla等〔12〕報道10個NSCLC細胞增殖關聯(lián)基因BUB1、CCNB2、CDK1、CDKN3、FOXM1、KIAA0101、MAD2L1、MELK、MKI67和TOP2A與腫瘤對免疫檢查點抑制劑(ICI)的耐藥性相關。免疫組化實驗表明,CDC20高表達的NSCLC患者預后相對較差〔13〕。Ruan等〔14〕發(fā)現CCNA2是NSCLC腫瘤細胞轉移的關鍵調節(jié)劑,可作為靶向治療NSCLC的新靶標。Gemma等〔15〕發(fā)現BUB1基因突變與有絲分裂檢查點基因的突變與腫癌的發(fā)生發(fā)展有關。
NSCLC患者的腫瘤發(fā)病關鍵基因的研究目前已有部分報道,Chen等〔16〕對3個基因表達譜的研究共鑒別10個NSCLC關鍵基因,但僅有CDK1、PLK1、RAD51和RFC4 4個基因被證明與患者生存時間降低密切相關,Liu等〔17〕研究表明,CDK1、UBE2C、AURKA、CCNA2、CDC20、CCNB1、TOP2A、ASPM、MAD2L1和KIF11是NSCLC患者發(fā)病的關鍵基因。由于上述研究未對吸煙及未吸煙樣本進行區(qū)分,研究對象的不同可能是引起與本研究結果不一致的重要原因。
綜上,本研究共鑒別10個與不吸煙人群NSCLC患者腫瘤發(fā)生和進展密切關聯(lián)的關鍵基因,其中NCAPG未見相關報道,這些基因的高表達與患者生存時間降低顯著相關。