李 健 梁玉娜
泰安市中心醫(yī)院乳腺疾病診療部,山東泰安 271000
乳腺癌現(xiàn)在已經(jīng)成為女性最常見的癌癥。根據(jù)Lancet最新的乳腺癌研究綜述,乳腺癌的發(fā)病率占世界女性癌癥的30%,死亡率與發(fā)病率的比值為15%[1]。根據(jù)以往的研究表明,病理分期對于乳腺癌患者的預(yù)后有很大的影響。乳腺癌是一種異質(zhì)性很強(qiáng)的腫瘤,主要分為4種分子類型:lumial A型、lumial B型、Her-2陽性和三陰性亞型,對乳腺癌的復(fù)發(fā)和轉(zhuǎn)移具有重要的預(yù)測價(jià)值[2],但對于同一分子類型以及病理分期的患者,有時(shí)預(yù)后仍有非常大的差異。
隨著測序技術(shù)的發(fā)展,近年來越來越多的研究表明,雖然多種mRNA、miRNA、lncRNA、ceRNA等基因標(biāo)志物對乳腺癌的預(yù)后有著良好的預(yù)測作用[3-5],然而,對于乳腺癌的診斷和治療仍然缺乏特異的、敏感的生物標(biāo)志物。蛋白表達(dá)在腫瘤發(fā)生的不同階段發(fā)揮著關(guān)鍵作用,但目前還沒有關(guān)于乳腺癌的蛋白預(yù)后模型研究。蛋白質(zhì)水平的研究比RNA水平的研究更有利于臨床應(yīng)用,基于此,本研究擬從蛋白質(zhì)水平來分析乳腺癌,并且從蛋白質(zhì)角度來構(gòu)建多種蛋白質(zhì)聯(lián)合預(yù)后模型,以期為乳腺癌的臨床診斷、治療及預(yù)后的準(zhǔn)確性提供重要的參考資料。
乳腺癌患者的蛋白質(zhì)表達(dá)譜和匹配的臨床信息從癌癥蛋白質(zhì)組圖譜門戶(TCPA)[6](https://www.tcpaportal.org/tcpa/,包括879個(gè)乳腺癌樣本和224個(gè)蛋白質(zhì))和TCGA網(wǎng)站(https://portal.gdc.cancer.gov/,包括901個(gè)臨床病例信息)分別下載。TCPA是一個(gè)綜合資源,用于訪問、可視化和分析患者腫瘤樣本和癌細(xì)胞系的功能蛋白質(zhì)組學(xué)。本研究中所有數(shù)據(jù)均為上述官網(wǎng)來源的最新數(shù)據(jù)。從網(wǎng)站下載Perl軟件(https://www.perl.org/)[7]和R軟 件(https://www.rproject.org/)[8]。R軟件中的impute包用于填充缺失的數(shù)據(jù)。本研究符合TCPA的出版指南。
用Perl軟件來整合蛋白表達(dá)數(shù)據(jù)與患者生存數(shù)據(jù),用R軟件survival包進(jìn)行單因素Cox分析,按照P<0.05標(biāo)準(zhǔn)篩選與乳腺癌預(yù)后相關(guān)的蛋白,再用R軟件ggplot2和ggrepel包繪制火山圖以可視化結(jié)果;然后,用lasso回歸去除預(yù)后相關(guān)蛋白的多重共線性,以防止模型基因之間的過度擬合;最后,對預(yù)后相關(guān)蛋白進(jìn)行多因素Cox分析,篩選出與乳腺癌有關(guān)的預(yù)后相關(guān)蛋白,構(gòu)建預(yù)測模型并用風(fēng)險(xiǎn)評分顯示。風(fēng)險(xiǎn)評分=(蛋白1的系數(shù)×蛋白1的表達(dá))+(蛋白2的系數(shù)×蛋白2的表達(dá))+…+(蛋白n的系數(shù)×蛋白n的表達(dá))。根據(jù)風(fēng)險(xiǎn)值的中位值將患者分為高危組和低危組,并對風(fēng)險(xiǎn)評分的生存率進(jìn)行分析,最后,繪制生存曲線來可視化結(jié)果。
利用R軟件survival包對模型中的蛋白進(jìn)行生存曲線繪制,用pheatmap包對樣本進(jìn)行風(fēng)險(xiǎn)評分排序,然后,根據(jù)風(fēng)險(xiǎn)評分和蛋白質(zhì)表達(dá)數(shù)據(jù)來繪制風(fēng)險(xiǎn)熱圖,用來分析模型蛋白在高風(fēng)險(xiǎn)和低風(fēng)險(xiǎn)評分中的表達(dá)情況;繪制風(fēng)險(xiǎn)評分和患者評分的風(fēng)險(xiǎn)曲線,用來評價(jià)預(yù)測模型在評估患者生存風(fēng)險(xiǎn)中的作用;繪制風(fēng)險(xiǎn)評分和生存狀態(tài)的生存狀態(tài)圖,用來評估模型對患者生存和預(yù)后的預(yù)測效果。
結(jié)合Perl軟件對樣本的生存時(shí)間、生存狀態(tài)、風(fēng)險(xiǎn)值、年齡、分期等進(jìn)行組合,然后進(jìn)行單變量和多變量Cox分析,觀察上述臨床狀態(tài)、風(fēng)險(xiǎn)值和生存狀態(tài)之間的相關(guān)性,評價(jià)風(fēng)險(xiǎn)預(yù)測模型評分在預(yù)后預(yù)測中的作用,結(jié)果用可視化的森林圖展示。建立預(yù)測列線圖。列線圖通常用于預(yù)測癌癥的預(yù)后,將統(tǒng)計(jì)預(yù)測模型簡化為根據(jù)個(gè)體患者的狀況對事件(例如復(fù)發(fā)或死亡)的概率進(jìn)行單一數(shù)值評估。通過R軟件中的survival ROC包,繪制受試者操作特征(ROC)曲線,計(jì)算AUC值,評估乳腺癌患者預(yù)后模型的預(yù)測準(zhǔn)確性。
將預(yù)測模型中的蛋白質(zhì)和乳腺癌相關(guān)的223個(gè)蛋白質(zhì)的表達(dá)數(shù)據(jù)作為輸入數(shù)據(jù),用R軟件進(jìn)行相關(guān)分析,采用相關(guān)系數(shù)cor>0.4和P<0.001作為篩選條件對結(jié)果進(jìn)行篩選。使用R軟件中的ggalluvial、ggplot2和dplyr包構(gòu)建相關(guān)共表達(dá)蛋白的桑基圖。
UALCAN是一個(gè)用戶友好的交互式網(wǎng)絡(luò)資源,包含了根據(jù)TCGA數(shù)據(jù)庫中31種癌癥類型的3級RNA-seq數(shù)據(jù)和臨床數(shù)據(jù)分析癌癥OMICS數(shù)據(jù)。在UALCAN網(wǎng)站(http://ualcan.path.uab.edu/)[23]上分析6個(gè)中樞蛋白及其編碼基因的差異表達(dá)。
在R軟件(R 4.0.2)或Perl軟件Strawberry Perl(64位)中,分析從TCPA和TCGA數(shù)據(jù)集檢索得到的蛋白質(zhì)數(shù)據(jù)和臨床信息。所有統(tǒng)計(jì)分析均通過R軟件進(jìn)行評估。檢驗(yàn)水準(zhǔn)α=0.05。
TCPA數(shù)據(jù)庫已將原始數(shù)據(jù)轉(zhuǎn)換為可識別的格式。首先基于單變量Cox比例風(fēng)險(xiǎn)回歸分析與總生存期(OS)相關(guān)的候選蛋白質(zhì),P值低于0.05的蛋白質(zhì)被定義為顯著。HR<1的蛋白質(zhì)被定義為候選保護(hù)性蛋白質(zhì),HR≥1的蛋白質(zhì)被認(rèn)為是候選危險(xiǎn)蛋白質(zhì)。用R軟件ggplot2和ggrepel包繪制火山圖進(jìn)行可視化(圖1A);構(gòu)建預(yù)后風(fēng)險(xiǎn)特征模型。通過lasso回歸篩選出12種蛋白質(zhì)來去除共線性(圖1B,C);多因素Cox分析共篩選出6種蛋白,可作為乳腺癌預(yù)后的獨(dú)立危險(xiǎn)因素(CASPASE7-CLEAVEDD198、NFKBP65_pS536、PCADHERIN、P27、X4EBP1_pT70、EIF4G)。預(yù)后風(fēng)險(xiǎn)特征是通過組合6種中樞蛋白的表達(dá)值而構(gòu)建的,這些值由其回歸系數(shù)加權(quán)。將中位風(fēng)險(xiǎn)評分作為臨界值,將乳腺癌患者分為高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組。
圖1 預(yù)后相關(guān)蛋白質(zhì)及l(fā)asso回歸分析(紅色表示高風(fēng)險(xiǎn)蛋白質(zhì),綠色表示低風(fēng)險(xiǎn)蛋白質(zhì))
通過對6種模型蛋白的生存分析,發(fā)現(xiàn)CASPASE7-CLEAVEDD198、PCADHERIN和P27蛋白高表達(dá)的患者預(yù)后良好(P<0.05),可能在乳腺癌的發(fā)生發(fā)展中起到抑癌作用(圖2A、B、C)。NFKBP65_pS536、X4EBP1_pT70和EIF4G蛋白高表達(dá)的患者預(yù)后較差(P<0.05),可能是乳腺癌發(fā)生發(fā)展的促癌因素(圖2D、E、F)。通過預(yù)測模型風(fēng)險(xiǎn)評分的生存率分析發(fā)現(xiàn),高風(fēng)險(xiǎn)組的總體生存率明顯低于低風(fēng)險(xiǎn)組(P<0.001)。驗(yàn)證風(fēng)險(xiǎn)熱圖顯示,蛋白CASPASE7-CLEAVEDD198、PCADHERIN和P27在高危組中較低,NFKBP65_pS 536、X4EBP1_pT70和EIF4G在高危組中較高,這與生存分析結(jié)果具有相同的趨勢(圖3C)。風(fēng)險(xiǎn)曲線顯示,隨著患者生存風(fēng)險(xiǎn)評分的增加,模型風(fēng)險(xiǎn)評分相應(yīng)增加(圖3A)。生存狀態(tài)圖顯示患者的生存率隨著生存風(fēng)險(xiǎn)評分的增加而降低(圖3B)。
圖2 6種預(yù)測模型蛋白的生存分析
圖3 乳腺癌組的詳細(xì)預(yù)后模型信息
我們進(jìn)一步評估了預(yù)后風(fēng)險(xiǎn)模型的性能。根據(jù)風(fēng)險(xiǎn)評分分為兩組后,高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組在OS上差異有統(tǒng)計(jì)學(xué)意義(P<0.05,圖4)。單因素(圖5A)和多因素(圖5B)Cox回歸分析顯示,患者年齡和預(yù)測模型是影響預(yù)后的獨(dú)立危險(xiǎn)因素(P<0.05);預(yù)測列線圖是通過涉及臨床病理學(xué)和預(yù)后模型構(gòu)建的。預(yù)后模型和臨床病理數(shù)據(jù)的使用可以提高3年、5年和10年OS預(yù)測的敏感性和特異性(圖6)。ROC分析可以檢驗(yàn)預(yù)測模型評價(jià)患者預(yù)后的準(zhǔn)確性和敏感性(圖7),通過ROC分析預(yù)測模型的風(fēng)險(xiǎn)評分和臨床病理特征,發(fā)現(xiàn)預(yù)測模型比傳統(tǒng)的臨床病理對乳腺癌患者的預(yù)后評估具有更高的準(zhǔn)確性和敏感性。
圖4 預(yù)后風(fēng)險(xiǎn)模型驗(yàn)證(高低風(fēng)險(xiǎn)組OS差異有統(tǒng)計(jì)學(xué)意義)
圖5 臨床病理參數(shù)和風(fēng)險(xiǎn)模型的預(yù)后意義
圖6 使用臨床病理數(shù)據(jù)和預(yù)后模型構(gòu)建的列線圖
圖7 風(fēng)險(xiǎn)特征的預(yù)測準(zhǔn)確性(ROC曲線)
與正常樣本相比,4EBP1、CASP7、CDKN1B和EIF4G1的mRNA在原發(fā)性腫瘤中的表達(dá)顯著增加,而NFKB1和CDH3的表達(dá)顯著降低。同樣的,在蛋白質(zhì)表達(dá)水平上,我們發(fā)現(xiàn)乳腺癌組織中CASP7、CDH3和EIF4G1的表達(dá)顯著增加,而NFKB1的表達(dá)顯著降低(圖8,9)。
圖8 乳腺癌組織和正常組織(UALCAN)之間6種編碼基因的表達(dá)(*P<0.05)
根據(jù)蛋白質(zhì)相關(guān)性分析結(jié)果顯示,蛋白CASPASE7CLEAVEDD198、PCADHERIN、X4EBP1_pT70和EIF4G與其他蛋白質(zhì)有很強(qiáng)的相關(guān)性,尤其是EIF4G,它的相關(guān)蛋白數(shù)量最多。對相關(guān)蛋白的進(jìn)一步分析發(fā)現(xiàn),它們其中大多數(shù)作為促癌蛋白,參與癌癥發(fā)生、PD-L1表達(dá)與PD-1檢查點(diǎn)通路、ErbB和mTOR信號通路來促進(jìn)腫瘤細(xì)胞增殖、侵襲和轉(zhuǎn)移,其中CASPASE7CLEAVEDD198蛋白與癌細(xì)胞的凋亡有關(guān),PCADHERIN與癌細(xì)胞轉(zhuǎn)移有關(guān),X4EBP1和EIF4G與癌細(xì)胞轉(zhuǎn)錄有關(guān)。
乳腺癌的發(fā)病率較高,發(fā)病機(jī)制尚未被完全闡明,并且仍然缺乏有效的治療方法[9]。目前,雖然對乳腺癌的診斷和治療有很多的研究,但都沒有取得重大突破。因此,尋找一種可靠的預(yù)測乳腺癌預(yù)后的方法,對及時(shí)、準(zhǔn)確地預(yù)測治療效果,指導(dǎo)進(jìn)一步治療具有重要的意義。
在本研究中,通過對TCPA數(shù)據(jù)庫中乳腺癌相關(guān)蛋白進(jìn)行分析,構(gòu)建了一個(gè)包含6種蛋白質(zhì)的預(yù)測模型,結(jié)果發(fā)現(xiàn),該預(yù)測模型能有效預(yù)測生存率,而高危組總生存率較低危組差。獨(dú)立預(yù)后及ROC分析表明,該預(yù)測模型可作為患者預(yù)后的獨(dú)立危險(xiǎn)因素,對患者預(yù)后有較好的預(yù)測價(jià)值。Ualcan數(shù)據(jù)庫分析表明CASP7、EIF4G1在乳腺癌組織中顯著過表達(dá),而NFKB1在結(jié)直腸癌組織中顯著低表達(dá)。CDH3的mRNA表達(dá)與其蛋白表達(dá)不匹配。此外,通過蛋白質(zhì)相關(guān)性分析,發(fā)現(xiàn)CASPASE7CLEAVEDD19 8、PCADHERIN、X4EBP1_pT70和EIF4G是調(diào)控乳腺癌發(fā)生發(fā)展的關(guān)鍵蛋白。
CASPASE7是半胱氨酸天冬氨酸蛋白酶(半胱氨酸酶)家族的一員。SREBP1通過抑制CASPASE7的表達(dá)促進(jìn)乳腺癌細(xì)胞對5-Fu的抵抗[10]。在內(nèi)分泌抵抗的乳腺癌細(xì)胞中,ERα的缺失通過降低ERα介導(dǎo)的CASPASE7的表達(dá)而影響HDAC3的穩(wěn)定,從而導(dǎo)致CASPASE7介導(dǎo)的HDAC3裂解的減少[11]。同時(shí)我們還發(fā)現(xiàn),ERα-HDAC3軸決定了H3K9和H4K16乙?;恼w狀態(tài),這與ERα的表達(dá)呈正相關(guān)。
P-cadherin是細(xì)胞間粘附分子cadherin家族的一員,P-cadherin在乳腺癌中的表達(dá)與患者的生存率密切相關(guān),是一個(gè)獨(dú)立的預(yù)后預(yù)測因子。P-cadherin是比E-cadherin、N-cadherin和其他細(xì)胞粘附分子更好的臨床預(yù)后指標(biāo)[12-13]。本研究還發(fā)現(xiàn)Pcadherin的異常表達(dá)(高)與乳腺癌患者的生存率降低有關(guān)。
4EBP1是細(xì)胞mTOR信號通路的主要影響因子,它的基因擴(kuò)增狀態(tài)可用于預(yù)測乳腺癌的預(yù)后以及不同亞型乳腺癌中抗雌激素治療的有效性[14]。
研究發(fā)現(xiàn),NFKBP65_pS536(自噬相關(guān)蛋白NFKB p65)與高組織學(xué)分級(P=0.05)、雌激素受體(ER)陰性(P=0.01)和高Ki67指數(shù)(P=0.002)相關(guān),核NF-κB染色患者的病理完全反應(yīng)(PCR)率高于未染色患者(分別為26.5%和6.0%,P=0.004)[15]。
圖9 乳腺癌組織和正常組織(UALCAN)之間6種關(guān)鍵蛋白的表達(dá)(*P<0.05)
圖10 TCPA數(shù)據(jù)庫中與6個(gè)中樞蛋白相關(guān)的所有蛋白質(zhì)的桑基圖(R>0.4,P<0.001)
EIF4G是真核翻譯起始因子4F(eIF4F)復(fù)合物的支架成分,主要參與蛋白質(zhì)合成的起始,eIF4G的兩個(gè)亞型(eIF4G1和eIF4G2)與各種腫瘤密切相關(guān)。Zhang等[16]研究發(fā)現(xiàn),與癌旁組織相比,eIF4G1在乳腺癌、宮頸癌、鼻咽癌、肺鱗癌、前列腺癌等惡性腫瘤中表達(dá)顯著上調(diào);eIF4G2在彌漫性大B細(xì)胞淋巴瘤和急性髓系白血病中明顯高表達(dá),而在膀胱移行細(xì)胞癌中低表達(dá)。
P27是從G1到S期進(jìn)展的關(guān)鍵調(diào)節(jié)因子[17]。細(xì)胞周期抑制劑P27是小型(T1a、b)浸潤性乳腺癌的獨(dú)立預(yù)后標(biāo)志物[18]。
在這項(xiàng)研究中,我們還鑒定了與預(yù)后特征蛋白的表達(dá)顯著相關(guān)的蛋白質(zhì)。我們的研究也存在一些不足。首先,TCPA數(shù)據(jù)庫中僅鑒定了200多種蛋白質(zhì),缺乏許多關(guān)鍵蛋白質(zhì)的信息;其次,缺乏外部驗(yàn)證導(dǎo)致我們的研究結(jié)果臨床應(yīng)用價(jià)值有限,需要進(jìn)一步研究其外部驗(yàn)證和臨床實(shí)用性;最后,分子生物學(xué)實(shí)驗(yàn)對于闡明蛋白質(zhì)組學(xué)特征的潛在分子機(jī)制是必要的。總之,我們的研究已經(jīng)建立并驗(yàn)證了基于蛋白質(zhì)的乳腺癌患者預(yù)后風(fēng)險(xiǎn)模型,這有助于為乳腺癌患者更個(gè)性化的治療提供經(jīng)濟(jì)、準(zhǔn)確的依據(jù)。
利益沖突所有作者均聲明不存在利益沖突
山東第一醫(yī)科大學(xué)(山東省醫(yī)學(xué)科學(xué)院)學(xué)報(bào)2021年10期