溫賀新,史維俊,葛思堂,李 靜,左蘆根,劉牧林
蚌埠醫(yī)學(xué)院第一附屬醫(yī)院1胃腸外科,2檢驗(yàn)科,安徽 蚌埠233004
結(jié)直腸癌(CRC)是胃腸道中常見的惡性腫瘤,我國以41~65歲人群發(fā)病率較高。近20年來,尤其在城市中,發(fā)病率明顯上升[1]。70%CRC是由腺瘤性息肉病演變而來,從形態(tài)學(xué)可見到增生、腺瘤及癌變各階段相應(yīng)的染色體改變。隨著分子生物學(xué)技術(shù)的發(fā)展,CRC癌變過程中的基因改變被逐漸認(rèn)識(shí)。CRC的發(fā)生發(fā)展是一個(gè)多步驟、多階段及多基因參與的細(xì)胞遺傳性疾?。?]。近年來,關(guān)于CRC的基礎(chǔ)研究主要集中在基因改變?cè)贑RC的診斷及治療中的作用;而關(guān)于預(yù)后的研究較少。
以往關(guān)于CRC預(yù)后的研究大多是基于其臨床病理數(shù)據(jù)(例如腫瘤大小,腫瘤數(shù)量,淋巴結(jié)及血管浸潤等)和單分子生物標(biāo)記物(例如癌胚抗原CEA 及糖類抗原CA199,CA125等)所作的預(yù)測(cè)[3-6]。然而,由于臨床病理數(shù)據(jù)的收集存在較大的個(gè)體主觀性及CRC發(fā)生發(fā)展過程的復(fù)雜性,單純依靠臨床病理數(shù)據(jù)或單個(gè)分子生物標(biāo)記物均不能很好的對(duì)CRC的預(yù)后作出預(yù)測(cè)[7-8]。相關(guān)研究發(fā)現(xiàn),在乳腺癌、前列腺癌及肝癌等腫瘤中聯(lián)合多個(gè)基因所作的預(yù)后模型可顯著提高預(yù)后預(yù)測(cè)的準(zhǔn)確性[9-11]。蛋白表達(dá)基因在腫瘤發(fā)生的不同階段均發(fā)揮作用,在結(jié)直腸癌中尚無相關(guān)研究。基于蛋白水平的研究相較于RNA水平更有利于在臨床上的應(yīng)用。基于此,本研究擬在蛋白層面對(duì)CRC進(jìn)行分析,并據(jù)此從蛋白角度構(gòu)建多蛋白分析模型;以期提高對(duì)CRC預(yù)后預(yù)測(cè)的準(zhǔn)確性,為CRC的臨床診斷、治療及預(yù)后提供重要的參考資料。
從TCPA數(shù)據(jù)庫下載CRC蛋白質(zhì)表達(dá)數(shù)據(jù)(包含327個(gè)CRC樣本及223種蛋白質(zhì))及臨床數(shù)據(jù)(包含452個(gè)臨床病例信息)[12]。從網(wǎng)站(https://www.perl.org/)下載Perl 軟件并安裝[13];從網(wǎng)站(https://www.r-project.org/)下載R軟件并安裝[14]。
通過Perl軟件將蛋白質(zhì)表達(dá)數(shù)據(jù)與患者生存數(shù)據(jù)進(jìn)行整合,然后引用R軟件“survival”包進(jìn)行單因素Cox分析,并按P<0.05的標(biāo)準(zhǔn)篩選篩選與CRC預(yù)后相關(guān)的蛋白質(zhì),引用R軟件“ggplot2”及“ggrepel”包繪制火山圖對(duì)結(jié)果進(jìn)行可視化。然后,利用LASSO回歸對(duì)預(yù)后相關(guān)蛋白質(zhì)去除多重共線性,以防止模型基因間的過度擬合。最后,對(duì)預(yù)后相關(guān)蛋白質(zhì)進(jìn)行多因素Cox分析篩選CRC獨(dú)立預(yù)后相關(guān)的蛋白質(zhì)構(gòu)建預(yù)測(cè)模型并以風(fēng)險(xiǎn)評(píng)分展示。風(fēng)險(xiǎn)評(píng)分=(蛋白質(zhì)1的風(fēng)險(xiǎn)系數(shù)×蛋白質(zhì)1 的表達(dá))+(蛋白質(zhì)2的風(fēng)險(xiǎn)系數(shù)×蛋白質(zhì)2的表達(dá))+……+(蛋白質(zhì)n的風(fēng)險(xiǎn)系數(shù)×蛋白質(zhì)n的表達(dá))[15]。
應(yīng)用Perl軟件將預(yù)測(cè)模型中的蛋白質(zhì)表達(dá)數(shù)據(jù)與生存數(shù)據(jù)進(jìn)行合并;引用R軟件“survival”包分別對(duì)蛋白質(zhì)進(jìn)行生存分析。然后,根據(jù)風(fēng)險(xiǎn)評(píng)分將患者分為高風(fēng)險(xiǎn)組(風(fēng)險(xiǎn)評(píng)分>中位風(fēng)險(xiǎn)評(píng)分)和低風(fēng)險(xiǎn)組(風(fēng)險(xiǎn)評(píng)分<中位風(fēng)險(xiǎn)評(píng)分),并對(duì)風(fēng)險(xiǎn)評(píng)分進(jìn)行生存分析。最后,對(duì)結(jié)果繪制生存曲線可視化。
應(yīng)用R軟件“pheatmap”包根據(jù)風(fēng)險(xiǎn)評(píng)分對(duì)樣品進(jìn)行排序;然后,對(duì)風(fēng)險(xiǎn)評(píng)分與蛋白質(zhì)表達(dá)數(shù)據(jù)繪制風(fēng)險(xiǎn)熱圖分析模型蛋白質(zhì)在高風(fēng)險(xiǎn)及低風(fēng)險(xiǎn)評(píng)分中的表達(dá)情況;對(duì)風(fēng)險(xiǎn)評(píng)分與患者評(píng)分繪制風(fēng)險(xiǎn)曲線以評(píng)價(jià)預(yù)測(cè)模型在評(píng)估患者生存風(fēng)險(xiǎn)中的作用;對(duì)風(fēng)險(xiǎn)評(píng)分與生存狀態(tài)繪制生存狀態(tài)圖以評(píng)價(jià)模型對(duì)患者生存預(yù)后的預(yù)測(cè)作用[16]。
利用Perl軟件將臨床病理特征及風(fēng)險(xiǎn)評(píng)分與生存數(shù)據(jù)進(jìn)行整合獲得獨(dú)立預(yù)后分析輸入文件,利用R軟件“survival”包對(duì)輸入文件進(jìn)行單因素及多因素cox回歸分析以評(píng)價(jià)預(yù)測(cè)模型風(fēng)險(xiǎn)評(píng)分在預(yù)后預(yù)測(cè)中的作用。結(jié)果繪制森林圖進(jìn)行可視化。
以蛋白質(zhì)預(yù)測(cè)模型風(fēng)險(xiǎn)評(píng)分與臨床病理特征及患者生存狀態(tài)作為輸入數(shù)據(jù),引用R軟件“survivalROC”包對(duì)蛋白質(zhì)預(yù)測(cè)模型風(fēng)險(xiǎn)評(píng)分及CRC臨床病理數(shù)據(jù)進(jìn)行ROC分析并繪制ROC曲線。AUC在0.5~0.7時(shí)有較低準(zhǔn)確性,AUC在0.7~0.9時(shí)有一定準(zhǔn)確性,AUC在0.9以上時(shí)有較高準(zhǔn)確性[17]。
預(yù)測(cè)模型中蛋白質(zhì)及CRC相關(guān)的223種蛋白質(zhì)的表達(dá)數(shù)據(jù)作為輸入數(shù)據(jù),利用R軟件進(jìn)行相關(guān)性分析,并以相關(guān)系數(shù)cor>0.4及P<0.001作為篩選條件對(duì)結(jié)果進(jìn)行篩選。以相關(guān)性結(jié)果作為輸入文件,引用R軟件“ggplot2”和“ggalluvial”包繪制桑基圖進(jìn)行可視化。
從TCGA數(shù)據(jù)庫CRC基因表達(dá)矩陣中提取關(guān)鍵蛋白的相關(guān)基因表達(dá)數(shù)據(jù),并利用R軟件的“Limma”及“beeswarm”程序包分析其在CRC組中的差異表達(dá);結(jié)果以散點(diǎn)圖進(jìn)行可視化。
蛋白質(zhì)表達(dá)數(shù)據(jù)的差異分析通過兩獨(dú)立樣本的t檢驗(yàn)完成;生存分析組間比較的方法采用Kaplan-Meier方法;采用LASSO回歸分析去除多重共線性;模型的構(gòu)建、獨(dú)立預(yù)后分析均通過多因素Cox分析完成;相關(guān)性分析采用Pearson相關(guān)性檢驗(yàn)。P<0.05為差異具有統(tǒng)計(jì)學(xué)意義。
單因素Cox分析顯示,223個(gè)蛋白與CRC預(yù)后相關(guān)(P<0.05,圖1A);LASSO回歸去除共線性篩選出9個(gè)蛋白(圖1B、C);多因素Cox分析共篩選獲得6種蛋白質(zhì)可作為CRC 預(yù)后的獨(dú)立風(fēng)險(xiǎn)因子(其中BID、SRC 及SRC_pY527呈低風(fēng)險(xiǎn);IGFBP2、INPP4B及SLC1A5呈高風(fēng)險(xiǎn)),同時(shí)獲得對(duì)應(yīng)的風(fēng)險(xiǎn)系數(shù)(risk coefficient,coef)(表1)。風(fēng)險(xiǎn)評(píng)分=(-1.7640×BID 的表達(dá))+(0.3286×IGFBP2的表達(dá))+(0.5976×INPP4B的表達(dá))+(-1.0119×SRC 的表達(dá))+(-0.4386×SRC_pY527 的表達(dá))+(0.4698×SLC1A5的表達(dá))。
圖1 預(yù)后相關(guān)蛋白質(zhì)及其LASSO回歸分析Fig.1 Prognosis-related proteins and their LASSO regression analysis.Red indicates that the highrisk proteins and green the low-risk ones.
表1 用于預(yù)測(cè)模型構(gòu)建的蛋白質(zhì)及其風(fēng)險(xiǎn)系數(shù)Tab.1 Proteins and their risk coefficients used for construction of the prediction model
通過對(duì)6種模型蛋白質(zhì)進(jìn)行生存分析發(fā)現(xiàn),蛋白質(zhì)BID、SRC 及SRC_pY527 高表達(dá)患者預(yù)后良好(P<0.05),他們?cè)贑RC 的發(fā)生發(fā)展中可能作為抑癌因子(圖2A、D、E);而蛋白質(zhì)IGFBP2、INPP4B及SLC1A5高表達(dá)患者預(yù)后不良(P<0.05),他們?cè)贑RC的發(fā)生發(fā)展中可能作為促癌因子(圖2B、C、F)。通過對(duì)預(yù)測(cè)模型風(fēng)險(xiǎn)評(píng)分進(jìn)行生存分析(圖2G),發(fā)現(xiàn)高風(fēng)險(xiǎn)組相較于低風(fēng)險(xiǎn)組總體生存較差(P<0.001)。
風(fēng)險(xiǎn)熱圖顯示,蛋白質(zhì)BID、SRC及SRC_pY527在高風(fēng)險(xiǎn)組呈低表達(dá),IGFBP2、INPP4B及SLC1A5在高風(fēng)險(xiǎn)組呈高表達(dá),這與生存分析結(jié)果具有相同的趨勢(shì)(圖3C);風(fēng)險(xiǎn)曲線顯示,隨著患者生存風(fēng)險(xiǎn)評(píng)分的遞增其對(duì)應(yīng)的模型風(fēng)險(xiǎn)評(píng)分相應(yīng)增加(圖3A);生存狀態(tài)圖顯示,隨著患者生存風(fēng)險(xiǎn)評(píng)分的增加患者生存率下降(圖3B)。
單因素(圖4A)和多因素(圖4B)Cox回歸分析表明患者年齡和預(yù)測(cè)模型都是影響預(yù)后的獨(dú)立危險(xiǎn)因子(P<0.05);ROC分析可檢驗(yàn)預(yù)測(cè)模型對(duì)評(píng)估患者預(yù)后的準(zhǔn)確性及靈敏度,通過對(duì)預(yù)測(cè)模型風(fēng)險(xiǎn)評(píng)分及臨床病理特征進(jìn)行ROC分析發(fā)現(xiàn)預(yù)測(cè)模型相較于傳統(tǒng)的臨床病理具有更高的準(zhǔn)確性和靈敏度(圖4C)。
根據(jù)蛋白質(zhì)相關(guān)性分析結(jié)果顯示:蛋白質(zhì)BID、SRC_pY527及SLC1A5與其他蛋白質(zhì)具有較強(qiáng)的相關(guān)性,尤其是蛋白質(zhì)SRC_pY527及SLC1A5(表2,圖5A)。進(jìn)一步對(duì)相關(guān)蛋白分析發(fā)現(xiàn),它們大部分作為促癌蛋白并參與癌癥通路AKT、MAPK及MEK等信號(hào)通路而促進(jìn)腫瘤細(xì)胞的增殖、侵襲和轉(zhuǎn)移;蛋白質(zhì)BID與癌細(xì)胞的凋亡相關(guān),SRC_pY527 與癌細(xì)胞的增殖相關(guān),SLC1A5與癌細(xì)胞的細(xì)胞周期相關(guān)。
隨著我國人口老齡化的加劇,CRC發(fā)病率在我國呈現(xiàn)上升趨勢(shì)。CRC的治療仍然是以手術(shù)切除及化學(xué)藥物治療為主的綜合治療。目前,由于對(duì)CRC缺乏早期的診斷手段,大多數(shù)患者被診斷時(shí)已屬晚期而失去手術(shù)等治愈性治療的時(shí)機(jī)且癌癥進(jìn)展過程中癌基因的突變使得化學(xué)治療出現(xiàn)耐藥導(dǎo)致CRC的預(yù)后較差[18]。雖然對(duì)CRC的診斷及治療的研究較多,但均未能取得較大的突破。因此,尋找一種可靠的方法用于CRC預(yù)后的預(yù)測(cè)以及時(shí)準(zhǔn)確的評(píng)估治療效果并指導(dǎo)進(jìn)一步治療至關(guān)重要。
圖3 預(yù)測(cè)模型風(fēng)險(xiǎn)曲線、生存狀態(tài)圖及風(fēng)險(xiǎn)熱圖Fig.3 Predictive model risk curve(A),survival state diagram(B)and risk heat map(C).
圖4 預(yù)測(cè)模型獨(dú)立預(yù)后及ROC分析Fig.4 Independent prognosis and ROC analysis of the prediction model. A: Single factor independent prognostic analysis; B:Multivariate independent prognostic analysis;C:ROC analysis of clinicopathological and predictive models.
表2 蛋白質(zhì)相關(guān)性分析結(jié)果Tab.2 Protein correlation analysis results
本研究通過對(duì)TCPA 數(shù)據(jù)庫中CRC 相關(guān)的蛋白質(zhì)進(jìn)行分析構(gòu)建了一種包含6 種蛋白質(zhì)的預(yù)測(cè)模型發(fā)現(xiàn):該預(yù)測(cè)模型可以有效地對(duì)生存進(jìn)行分層,并且高風(fēng)險(xiǎn)組相較于低風(fēng)險(xiǎn)組總體生存較差。獨(dú)立預(yù)后及ROC 分析提示:預(yù)測(cè)模型可作為患者預(yù)后的獨(dú)立風(fēng)險(xiǎn)因子,并且對(duì)患者預(yù)后具有較好的預(yù)測(cè)價(jià)值。此外,通過對(duì)蛋白質(zhì)相關(guān)性分析發(fā)現(xiàn):BID、SRC_pY527 及SLC1A5是調(diào)節(jié)CRC發(fā)生發(fā)展的關(guān)鍵蛋白質(zhì),它們與細(xì)胞凋亡(BAK、MEK1_pS217S221及FOXM1)、細(xì)胞增殖(AKT_pS473、SHC_pY317 及SRC_pY416 等)、細(xì)胞侵襲、轉(zhuǎn)移(NCADHERIN、NDRG1_pT346 及TUBERIN_pT1462)及 腫 瘤 代 謝(GSK3ALPHABETA_pS21S9)相 關(guān) 并 通 過AKT(AKT_pS473) 及 MAPK (MAPK_pT202Y204、P38_pT180Y182及P38_pT180Y182)等信號(hào)通路發(fā)揮作用。總之,這些結(jié)果證明了該預(yù)后模型的巨大預(yù)后價(jià)值,同時(shí)發(fā)現(xiàn)這些蛋白質(zhì)可能通過SRC/AKT/MAPK信號(hào)軸調(diào)節(jié)CRC發(fā)生發(fā)展。
圖5 蛋白質(zhì)相關(guān)性分析及模型蛋白在mRNA水平的差異表達(dá)Fig.5 Protein correlation and the difference analysis of model-related proteins at the mRNA level. A: Correlation analysis showed that there was a correlation between BID and 3 proteins,SRC_pY527 was correlated with 12 proteins,and SLC1A5 was correlated with 11 proteins.B:Gene BID has a significant high expression in colorectal cancer;C:Gene IGFBP2 has a certain level of high expression in colorectal cancer;D:Gene INPP4B has no significant difference in expression in colorectal cancer;E:Gene SRC is in colorectal cancer Rectal cancer is significantly high expression; F: Gene SRC_pY527 is significantly high expression in colorectal cancer;G:gene SLC1A5 is significantly high expression in colorectal cancer.
BID蛋白是Bcl-2家族中促凋亡類的蛋白。它具有可被caspase8酶切調(diào)控、高效的誘導(dǎo)細(xì)胞色素c從線粒體泄漏到細(xì)胞漿中的功能,從而在細(xì)胞凋亡中起重要作用[19]。BID蛋白還可以與Bax蛋白協(xié)同作用,通過促進(jìn)Bax與線粒體的結(jié)合及引起B(yǎng)ax構(gòu)象的變化,而加強(qiáng)Bax引起的線粒體損傷[20]。胰島素樣生長因子結(jié)合蛋白2(IGFBP2),可通過增強(qiáng)基質(zhì)金屬蛋白2對(duì)細(xì)胞外基質(zhì)的講解并介導(dǎo)胰島素樣生長因子介導(dǎo)的信號(hào)轉(zhuǎn)導(dǎo)過程,從而促進(jìn)細(xì)胞增殖[21]。II型多磷酸肌醇4-磷酸酶(INPP4B)是一種抑癌基因,通過抑制AKT激酶,阻斷PI3K/AKT信號(hào)轉(zhuǎn)導(dǎo)通路,減弱腫瘤細(xì)胞的生長、增殖能力,誘發(fā)腫瘤凋亡[22-23]。SRC蛋白可激活Ras蛋白,然后依次激活Raf、MEK和MAPK/ERK,從而引發(fā)一系列的生物學(xué)效應(yīng);同時(shí)活化的MAPK途徑也可以磷酸化Src相應(yīng)的位點(diǎn),導(dǎo)致基因轉(zhuǎn)錄的激活,而抑制MAPK途徑的活化可逆轉(zhuǎn)Src蛋白的部分效應(yīng)[24-25]。SRC蛋白異常激活可促進(jìn)細(xì)胞增殖、侵襲轉(zhuǎn)移及誘導(dǎo)血管生成等,并與胃癌、結(jié)直腸癌及肝癌等多種腫瘤的發(fā)生密切相關(guān)[26-27]。溶質(zhì)載體家族1成員5(SLC1A5),是氨基酸轉(zhuǎn)運(yùn)載體家族中的重要一員。主要轉(zhuǎn)運(yùn)包括谷氨酰胺在內(nèi)的多種小分子中性氨基酸[28]。相關(guān)研究表明:SLC1A5在多種惡性腫瘤組織和細(xì)胞中高表達(dá),并且與腫瘤增殖、侵襲及預(yù)后不良有關(guān),體內(nèi)外研究表明抑制SLC1A5可抑制腫瘤細(xì)胞生長[29-30]。這些蛋白質(zhì)均與腫瘤的發(fā)生發(fā)展有關(guān),并且在CRC中相關(guān)研究不足。
我們的研究集中于CRC中不斷改變的蛋白質(zhì)的預(yù)后作用,而不僅僅局限于單個(gè)蛋白質(zhì)。該分析結(jié)果具有潛在的實(shí)質(zhì)性臨床意義,有望成為評(píng)估CRC治療預(yù)后新的指標(biāo);并對(duì)CRC的實(shí)驗(yàn)研究提供一個(gè)重要的研究方向,有望為CRC的診治、治療提供新的靶標(biāo)。但是,盡管我們對(duì)本研究做了細(xì)致嚴(yán)格的分析,但是仍存在幾個(gè)問題。第一,在構(gòu)建蛋白質(zhì)預(yù)測(cè)模型時(shí),只有6個(gè)蛋白質(zhì)被用于預(yù)測(cè)模型的構(gòu)建,導(dǎo)致一些重要的蛋白質(zhì)在構(gòu)建模型之前已經(jīng)被排除在外,并最終降低了預(yù)測(cè)模型的性能。第二,CRC的發(fā)生發(fā)展是一個(gè)多因素、多機(jī)制共同作用的復(fù)雜過程;僅僅利用蛋白質(zhì)構(gòu)建預(yù)測(cè)模型來評(píng)估CRC的預(yù)后將導(dǎo)致預(yù)測(cè)性能的不足。第三,功能實(shí)驗(yàn)是必要的,以揭示模型相關(guān)蛋白質(zhì)在調(diào)節(jié)CRC進(jìn)展中的功能及SRC/AKT/MAPK信號(hào)軸調(diào)節(jié)CRC發(fā)生發(fā)展分子機(jī)制。
南方醫(yī)科大學(xué)學(xué)報(bào)2021年3期