黃愛本 何澤生 黃菲一 孔令員
依據(jù)近期世界衛(wèi)生組織國際癌癥研究機構(gòu)的研究數(shù)據(jù),2020年全球新增癌癥病例約1 930萬例(不包括非黑色素瘤皮膚癌1 810萬例),癌癥死亡病例近1 000多萬例(排除非黑色素腫瘤皮膚癌990萬例),其中一個最明顯的變化是乳腺癌新發(fā)病例數(shù)的快速增長。目前,女性癌癥中乳腺癌的患病率已超過肺癌成為最常見的診斷癌癥,新增病例約230萬例(11.7%)[1]。發(fā)達(dá)國家有636 128例乳腺癌病例,而發(fā)展中國家為514 072例,分別為189 765例和220 648例[2]。在歐洲,2004年的估計表明,新診斷的乳腺癌病例為371 000例,與乳腺癌相關(guān)的死亡病例為12.99萬例[3]。在全世界范圍內(nèi),乳腺癌是影響女性的最常見的癌癥,預(yù)計其發(fā)病率和死亡率在未來5~10年內(nèi)將顯著增加,已嚴(yán)重的影響了女性的生命健康。據(jù)統(tǒng)計,我國乳腺癌五年生存率超80%,已成為繼甲狀腺腫瘤外生存率最高的腫瘤。但大量患者仍存在復(fù)發(fā)或轉(zhuǎn)移的風(fēng)險,中國乳腺癌復(fù)發(fā)率約20%~30%,5年內(nèi)復(fù)發(fā)轉(zhuǎn)移風(fēng)險最高。毫無疑問,隨著醫(yī)療水平的不斷提高及全身放化療的標(biāo)準(zhǔn)化,放化療技術(shù)成為了治療大多數(shù)癌癥類型的“金標(biāo)準(zhǔn)”方法,以適度改善癌癥患者的存活率和降低放化療不良反應(yīng)的毒性,靶向治療成功吸引了科學(xué)界的最大研究興趣和制藥行業(yè)的資金投入。最近的研究證據(jù)表明,乳腺癌確診時年齡的年輕化是一個獨立的生存預(yù)后因素[4]。世界衛(wèi)生組織國際癌癥研究機構(gòu)的研究數(shù)據(jù)報告分析表明,乳腺癌確診時患者年齡的年輕與復(fù)發(fā)和死亡的巨大風(fēng)險高度相關(guān)[5]。乳腺癌的發(fā)生其病理生理學(xué)機制復(fù)雜,有研究認(rèn)為基因檢測可以作為乳腺癌的早期治療輔助工具[6],F(xiàn)SIP1可以與HER2結(jié)合,增強乳腺癌細(xì)胞的增殖和侵襲能力[7]。然而,早期診斷的方法策略目前也尚未成熟。然而,不幸的是,蛋白質(zhì)風(fēng)險信號的機制研究從未被構(gòu)建來預(yù)測乳腺癌患者的預(yù)后。癌癥蛋白質(zhì)組圖譜(the cancer proteome atlas,TCPA)數(shù)據(jù)庫通過整合來自腫瘤基因組圖譜(the cancer genome atlas,TCGA)的反相蛋白陣列芯片數(shù)據(jù)和幾個獨立的腫瘤研究項目提供的蛋白質(zhì)表達(dá)譜[8],在本研究中,基于Kaplan-Meier方法和Cox回歸分析,確定了3個Hub蛋白,并首次構(gòu)建了蛋白質(zhì)風(fēng)險特征。受試者工作特征曲線下面積進一步證實了風(fēng)險特征的準(zhǔn)確性。借助位于伯明翰的AL-abama大學(xué)可以提供cer數(shù)據(jù)分析門戶網(wǎng)站,研究中進一步發(fā)現(xiàn)3個Hub蛋白在癌組織和正常組織以及不同的乳腺癌分期中存在差異表達(dá),并在HPA數(shù)據(jù)庫中得到驗證。
TCPA數(shù)據(jù)庫通過整合來自TCGA和幾個獨立的腫瘤研究項目的RPPA芯片數(shù)據(jù),提供了一個腫瘤蛋白質(zhì)譜數(shù)據(jù)中心。依據(jù)TCPA數(shù)據(jù)庫已將原始數(shù)據(jù)轉(zhuǎn)換為可識別的格式。此研究基于單變量Cox比例風(fēng)險回歸分析和Kaplan-Meier,提取與總生存期(overall survival,OS)相關(guān)的候選蛋白。P<0.05的關(guān)鍵蛋白質(zhì)在乳腺癌中被定義為具有顯著預(yù)后價值。風(fēng)險率(hazard rate,HR)<1的蛋白被定義為候選保護蛋白,HR>1的蛋白被定義為候選風(fēng)險蛋白[9]。
基于逐步多因素Cox比例風(fēng)險回歸分析數(shù)據(jù),最終獲得了3個HUB蛋白作為研究對象,將這3種HUB蛋白的表達(dá)值按其回歸系數(shù)加權(quán),建立預(yù)后風(fēng)險特征。中位值風(fēng)險評分被設(shè)定為分界值,并依據(jù)乳腺癌患者的風(fēng)險因素將其分為高風(fēng)險組和低風(fēng)險組兩大組。
為了預(yù)測研究的3個HUB蛋白風(fēng)險特征的性能,使用“ROC”軟件包繪制了ROC曲線。進行單變量和多變量Cox比例風(fēng)險回歸分析,以評估蛋白風(fēng)險信號的獨立預(yù)后潛力。多變量Cox分析了年齡、性別、分期、腫瘤原位大?。═)、淋巴結(jié)轉(zhuǎn)移(N)和遠(yuǎn)處轉(zhuǎn)移狀態(tài)(M)對乳腺癌危險信號的影響。
對3個Hub蛋白進行Pearson的相關(guān)分析,找到與其相關(guān)性的共表達(dá)蛋白。相關(guān)過濾標(biāo)準(zhǔn)P<0.001,皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient,PCC)>0.40。PCC>0表示與Hub蛋白呈正相關(guān),PCC<0表示與Hub蛋白呈負(fù)相關(guān)。研究進一步利用ggplot2和gguluviaPackage在3個Hub蛋白和它們的共表達(dá)蛋白中生成了Sankey圖。
人類蛋白數(shù)據(jù)庫(human protein atls,HPA)利用轉(zhuǎn)錄組學(xué)和蛋白質(zhì)組學(xué)技術(shù),從RNA和蛋白水平研究人類不同組織和器官中的蛋白表達(dá)情況。HPA基本上提供了人類可獲得的所有蛋白(約26 000種)在人體組織、器官的表達(dá)和分布。本次研究利用HPA數(shù)據(jù)庫對3個Hub蛋白進行在蛋白水平的驗證。
在本研究中,所有統(tǒng)計分析均使用R軟件(4.0.3版)進行,相關(guān)性分析使用皮爾遜相關(guān)系數(shù),Cox回歸分析和Kaplan-Meier篩選顯著蛋白,顯著性定義為P<0.05。
在TCPA數(shù)據(jù)庫中下載了1 178例乳腺癌患者/組織的蛋白質(zhì)表達(dá)譜。從TCGA數(shù)據(jù)庫下載相應(yīng)的臨床信息。為了預(yù)測蛋白質(zhì)表達(dá)對癌癥患者至關(guān)重要的乳腺癌的預(yù)后基因,利用單因素Cox回歸分析,篩選了4個候選生存相關(guān)蛋白。高風(fēng)險蛋白意味著它的表達(dá)越高,患者的死亡風(fēng)險就越高,總生存期就越短。
為了能精確提取到與乳腺癌發(fā)生發(fā)展密切相關(guān)的HUB蛋白,進一步進行多因素Cox回歸分析,最終鑒定出DVL3、LCK和p27 3個與乳腺癌生存相關(guān)的蛋白,并命名為HUB蛋白(P<0.05)。所有確定的Hub蛋白都與乳腺癌患者的總生存期顯著相關(guān),是監(jiān)測患者預(yù)后的潛在預(yù)后標(biāo)記物(圖1)。
圖1 基于3種HUB蛋白的高風(fēng)險組和低風(fēng)險組的Kaplan-Meier生存曲線
根據(jù)風(fēng)險評分的中位數(shù),本研究將乳腺癌患者分為兩組,高風(fēng)險組和低風(fēng)險組(圖2A)。屬于高危組的乳腺癌患者預(yù)后較差,死于乳腺癌的患者數(shù)量明顯高于低危組(圖2B)。熱圖顯示了3種HUB蛋白在高危組和低危組之間的差異表達(dá)。DVL3在高危組高表達(dá),而P27、LCK在低危組高表達(dá)(圖2C)。蛋白風(fēng)險特征與乳腺癌患者的總生存期(OS)顯著相關(guān)。高風(fēng)險組的總生存期明顯生存率低于低風(fēng)險組(圖2D)。
ROC曲線下面積為0.689,表明其對總生存率OS的預(yù)測效果為中等(圖2E)。為了本研究的風(fēng)險模型的獨立性,對本次研究進行了單變量和多變量Cox回歸分析(圖2F),發(fā)現(xiàn)蛋白質(zhì)風(fēng)險模型構(gòu)建是一個獨立可靠的預(yù)后因素之一。
圖2 蛋白質(zhì)風(fēng)險評分的構(gòu)建和驗證
根據(jù)TCPA蛋白和3個Hub蛋白的表達(dá)譜,本研究提取了其中11個相對有意義的共表達(dá)蛋白(PCC約等于0.5)(圖3),它們都顯示在?;鶊D中。
圖3 TCPA數(shù)據(jù)庫中與3個HUB蛋白相關(guān)的所有蛋白質(zhì)的Sankey圖
此研究通過TCGA數(shù)據(jù)集,分析DVL3以及LCK在乳腺癌的通路富集情況,發(fā)現(xiàn)DVL3主要蛋白在非小細(xì)胞肺癌、Notch信號通路、Wnt信號通路等相關(guān);LCK蛋白主要在MAPK信號通路、CANCER信號通路、原發(fā)性免疫等信號通路相關(guān),如圖4所示。
圖4 GSEA富集分析
研究通過HPA蛋白數(shù)據(jù)庫驗證3種關(guān)鍵蛋白的表達(dá),發(fā)現(xiàn)DVL3、P27在癌組織中表達(dá)陽性高表達(dá),而LCK表達(dá)為弱陽性,如圖5所示。
圖5 HPA蛋白數(shù)據(jù)庫
乳腺癌是女性癌癥中最常見的惡性腫瘤之一,但由于其預(yù)后相對較好,所以它在死因中排名第五[10]。在乳腺癌患者中,小于40歲的乳腺癌患者的腫瘤除了具有更強的侵襲性外,其生物學(xué)行為相對較差且患者的生存率也更低。盡管醫(yī)學(xué)界進行了幾十年的實驗室研究、流行病學(xué)分析和臨床研究,乳腺癌的發(fā)病率仍在繼續(xù)上升中[11]。乳腺癌是女性中最常被診斷的癌癥,在女性癌癥相關(guān)死亡原因中排名第二。在美國,乳腺癌導(dǎo)致的女性癌癥死亡人數(shù)比肺癌以外的任何部位的癌癥都要多。然而,目前年齡是影響乳腺癌的主要因素,與肺癌相比,乳腺癌的發(fā)病率在較年輕的時候更高。在其治療方面,女性乳腺癌患者可以通過手術(shù)、化療和放射治療相結(jié)合的方式進行治療。持續(xù)的乳腺癌相關(guān)研究正在努力使治療方案更加個體化,希望將放化療的副作用降至最低,以此來提高乳腺癌的總體存活率。盡管如此,其死亡率在女性癌癥患者中依然是死亡率最高的癌癥,因而有必要尋找其中潛在的、早期易于發(fā)現(xiàn)的患癌因子,對提高乳腺癌的診斷和總生存期至關(guān)重要。
傳統(tǒng)的乳腺癌組織學(xué)分類,主要基于臨床病理學(xué)特征和常規(guī)生物化學(xué)標(biāo)志物的評估,可能無法捕捉單個乳腺癌發(fā)生發(fā)展的不同臨床過程。高通量技術(shù)的最新發(fā)現(xiàn)增加了有關(guān)乳腺癌潛在基因改變和生物學(xué)事件的重要信息[12]。在本研究中,基于TCPA和TCGA數(shù)據(jù)庫,此次研究進行了K-M和Cox回歸分析。篩選出3種Hub蛋白,均與乳腺癌患者的總生存期(OS)顯著相關(guān)?;谶@3個Hub蛋白,首先提出了1個與蛋白相關(guān)的預(yù)后標(biāo)志,把它作為1個獨立的預(yù)后因素,與乳腺癌患者的OS顯著相關(guān)。ROC曲線下面積進一步驗證了該方法的準(zhǔn)確性和可靠性。此研究的蛋白風(fēng)險標(biāo)記的表現(xiàn)優(yōu)于現(xiàn)有的臨床病理參數(shù),根據(jù)風(fēng)險評分的中位數(shù),研究中將乳腺癌患者分為高危組和低危組,發(fā)現(xiàn)高危組的乳腺癌患者的死亡率明顯高于低危組。通過差異表達(dá)分析發(fā)現(xiàn),3種HUB蛋白在不同分期的乳腺癌患者和癌組織中的表達(dá)與正常組織相比差異有統(tǒng)計學(xué)意義(P<0.05)。鑒于3個Hub蛋白的潛在臨床意義,研究對3個Hub蛋白及其共表達(dá)蛋白進行了蛋白-蛋白相互作用和富集分析。
雖然研究報告DVL蛋白功能在不同的病理生理環(huán)境中發(fā)生改變,但在許多情況下其機制作用仍不清楚。然而,最近的研究表明,DVL易位到細(xì)胞核,并與Wnt基因的啟動子結(jié)合影響乳腺癌的發(fā)生發(fā)展[13],且另有研究表明DVL3可以介導(dǎo)IGFIR在乳腺癌的耐藥性[14]。LCK基因在缺氧環(huán)境中導(dǎo)致乳腺癌進展和血管的生成,而P27在乳腺癌的表達(dá)具有診斷預(yù)測意義。
根據(jù)以往的研究數(shù)據(jù)分析,這3種蛋白與乳腺癌的發(fā)生發(fā)展有顯著相關(guān)性[15]。通過相關(guān)的研究進一步揭示了這3種蛋白在乳腺癌中的預(yù)后作用,在未來還需要且迫切需要更多的分子機制研究,以證實其對乳腺癌的發(fā)生、發(fā)展和預(yù)后的相關(guān)作用機制。
在這項研究中,在GSEA富集分析表明,3個Hub蛋白中,DVL3主要蛋白與Notch信號通路、Wnt信號通路等相關(guān);LCK蛋白主要與MAPK信號通路、CANCER信號通路、原發(fā)性免疫等信號通路相關(guān)。
綜上所述,本次實驗研究基于TCPA和TCGA數(shù)據(jù)庫篩選出3個Hub蛋白,并首次構(gòu)建了與乳腺癌者總生存期(OS)顯著相關(guān)的蛋白風(fēng)險特征。研究結(jié)果表明風(fēng)險評分是一個獨立的預(yù)后因素,與年齡顯著相關(guān);3個Hub蛋白在癌組織、正常組織中的差異表達(dá)有可能用于臨床預(yù)測乳腺癌患者的預(yù)后風(fēng)險預(yù)測評估;通過公開數(shù)據(jù)庫和功能富集分析表明,3個Hub蛋白對乳腺癌的發(fā)生發(fā)展具有驅(qū)動作用,為乳腺癌的治療提供了新的治療方向和靶點。