蘇芃, 毛曉韻, 關(guān)舒, 崔夢遙, 金紫凝, 金鋒
三陰性乳腺癌(triple-negative breast cancer,TNBC)是乳腺癌的特殊亞型,其特征為缺乏雌激素受體(ER)和孕激素受體(PgR)的表達,以及缺乏人表皮生長因子受體2(HER2)的表達。一直以來TNBC由于其具有高侵襲性、高轉(zhuǎn)移性和顯著的耐藥性而備受關(guān)注[1]。又因缺少有效的治療靶點,TNBC患者的數(shù)量雖然只占乳腺癌患者總數(shù)的20%[2],但是死亡人數(shù)卻占所有乳腺癌患者死亡人數(shù)的80%[3]。研究表明,大多數(shù)TNBC患者發(fā)生肺轉(zhuǎn)移和骨轉(zhuǎn)移后,中位總生存時間(overall survival, OS)為12~18個月[4]。隨著全球TNBC患者不斷增加,尋找有效的治療靶點和預后生物學標志物成為TNBC臨床和科研的重點及難點。
目前手術(shù)和放化療仍是治療TNBC的常規(guī)方式。目前批準的化療藥物包括蒽環(huán)類、紫杉類和鉑類等[5-7],但是由于TNBC的致癌因子和耐藥性的異質(zhì)性,這些化療藥物的療效非常有限[8-9]。既往研究表明,在其他實體性腫瘤中,患者可以通過免疫治療獲益。免疫檢查點抑制劑(immune checkpoint inhibitors,ICIs)已經(jīng)被證明是目前最有效的免疫治療藥物,其能阻斷免疫抑制受體(CTL-4和PD-1)提高腫瘤浸潤淋巴細胞(TILs)的細胞毒性和增殖能力[10-17]。相比其他乳腺癌亞型,TNBC被認為是最有可能從免疫治療中獲益的。首先,TNBC中存在大量的TILs,而TILs在其他腫瘤中已經(jīng)被證明與ICIs療效呈正相關(guān);其次,在TNBC中PD-L1的表達在腫瘤組織和免疫細胞中均高表達,這為ICIs提供了直接的治療靶標;再次,TNBC中存在大量的非同義突變,它們會產(chǎn)生腫瘤異質(zhì)性新抗原,從而激活抗原異質(zhì)性T細胞,進而產(chǎn)生抗腫瘤免疫應答。但是目前還沒有一種有效的治療TNBC的免疫治療方案。
腫瘤微環(huán)境(tumor microenvironment,TME)已經(jīng)被證明是腫瘤潛在治療靶點的重要來源之一,其有很高的復雜性,且越來越多的文獻表明,TME在腫瘤進展和治療反應中起著關(guān)鍵作用[18-19]。例如,在診斷時可以通過TME的細胞成分預測免疫治療療效[20-21]和化療受益[22]。已經(jīng)證明,TME中的CD8+T細胞、CD4+T細胞、巨噬細胞和癌相關(guān)成纖維細胞數(shù)量的變化與乳腺癌患者的臨床預后密切相關(guān)[23]。所以如何正確理解TNBC患者的TME是免疫治療TNBC的重中之重。
本研究利用生物信息學分析方法評價TNBC患者中的免疫微環(huán)境細胞浸潤情況,希望從免疫微環(huán)境層面對TNBC患者的預后進行分析,進而提出新的TNBC免疫預后相關(guān)生物學標志物并描述其在TNBC中的生物學過程,為臨床治療TNBC提供新的治療靶點。
1.1 數(shù)據(jù)下載與標準化 系統(tǒng)檢索TNBC相關(guān)公開數(shù)據(jù)庫并篩選樣本,篩選標準:①數(shù)據(jù)集包含mRNA表達及生存數(shù)據(jù);②TNBC患者樣本數(shù)>40;③患者總生存時間>10 d;④術(shù)前未接受過抗腫瘤治療。芯片測序數(shù)據(jù)通過RMA算法進行標準化,對于一個基因?qū)鄠€探針的情況,取表達量的中位數(shù)作為該基因的表達量,并將基因表達中位數(shù)為0標準差小于0.1的基因剔除。
1.2 CIBERSORT 通過CIBERSORT算法[24]評價TNBC中免疫細胞成分包括:B細胞、T細胞、自然殺傷細胞、巨噬細胞、樹突狀細胞和髓細胞亞群等22種免疫細胞。該算法通過CIBERSORT官方網(wǎng)站(http://cibersort.stanford.edu/)實現(xiàn),提取P<0.05的分析結(jié)果。
1.3 一致性聚類分析 采用無監(jiān)督聚類法(K-means)對TNBC患者的免疫細胞成分進行聚類,尋找最佳的分類類型。此算法通過R包(Consensu Cluster Plus)實現(xiàn)[25],并通過1 000次交叉驗證證明數(shù)據(jù)結(jié)果的可靠性。
1.4 基因差異分析 采用差異基因分析探索TNBC中表達量異常的基因。通過R包(limma)實現(xiàn),并對基因表達量進行標準化。截斷值的選擇為|log2foldChange(FC)|≥1并且調(diào)整后P<0.05,即TNBC中基因表達量超過癌旁組織中表達量的2倍或降低2倍,統(tǒng)計學有差異的基因即為差異基因。
1.5 基因富集分析 為了計算單樣本基因集富集度,我們使用GSEA分析[26-27]推導出先前實驗驗證的基因特征的絕對富集分數(shù),通過R包(Cluster Profiler)[28]進行GO富集分析和KEGG通路分析,提示基因集主要富集的通路,注釋其參與的生物學過程。
1.6 Lasso-Logistic及ROC驗證 為了準確篩選免疫亞型的生物標志物,我們通過lasso-logistic模型[29]進行降維篩選。lasso-logistic回歸模型的目標函數(shù)如下:
其中,λ表示懲罰系數(shù),可以通過10折交叉驗證選取最優(yōu)λ,||α||1定義為每個向量元素絕對值之和。lasso-logistic模型通過R包(glmnet)實現(xiàn)。受試者工作特征曲線(ROC)用來評價降維后數(shù)據(jù)與免疫亞型之間的關(guān)系,ROC曲線下面積(AUC)越大,說明通過降維后數(shù)據(jù)分類的結(jié)果越好。
1.7 網(wǎng)絡加權(quán)共表達分析(WGCNA) 網(wǎng)絡加權(quán)共表達分析是利用分子間的表達相關(guān)系數(shù)來衡量它們的共表達關(guān)系,同一模塊中的分子表達模式相似,而和其他模塊分子表達模式差別較大。WGCNA中使用的方法就是使用dissimilarity來進行聚類,其采用的具體算法是拓撲重疊(topological overlap dissimilarity measure,TOM)以計算基因間的關(guān)聯(lián)程度[30]。
1.8 統(tǒng)計學方法 本研究運用R軟件進行統(tǒng)計分析,服從正態(tài)分布的定量數(shù)據(jù)以均數(shù)±標準差來表示,組間比較采用t檢驗,不服從正態(tài)分布的定量數(shù)據(jù)以中位數(shù)及四分位間距來表示,組間比較采用Wilcoxon檢驗。采用Kaplan-Meier法生成各數(shù)據(jù)集中各亞組的生存曲線,采用Log-rank檢驗確定差異的統(tǒng)計顯著性,P<0.05為有統(tǒng)計學意義。
2.1 研究對象特征 檢索GEO公開數(shù)據(jù)庫,下載GSE103091數(shù)據(jù),通過整理共納入包含mRNA數(shù)據(jù)和完整總生存數(shù)據(jù)的TNBC患者100例?;颊咂骄挲g為(57.0±13.1)歲;生存72例,死亡28例,中位生存時間為66.47個月;70例患者未轉(zhuǎn)移,30例(30%)出現(xiàn)遠處轉(zhuǎn)移。
2.2 一致性聚類分析(Consensus Cluster) 為選擇最合適的分組,本研究通過R包(Consensus Cluster Plus)進行,通過一致性聚類分析結(jié)果發(fā)現(xiàn),TNBC患者免疫細胞成分可分為兩類,一類為低免疫浸潤組,一類為高免疫浸潤組。低免疫浸潤組患者43例,其中轉(zhuǎn)移患者19例(44.2%);高免疫浸潤組患者57例,其中轉(zhuǎn)移患者11例(19.3%),兩組轉(zhuǎn)移患者比例差異有統(tǒng)計學意義(χ2=6.09,P=0.01),見圖1。通過生存分析發(fā)現(xiàn)低免疫浸潤組患者總生存較低,預后不良,見圖2。通過GSEA分析發(fā)現(xiàn)低免疫浸潤組人群主要受到正向免疫調(diào)節(jié)相關(guān)通路和細胞刺激因子相關(guān)通路的調(diào)控,見圖3,表1。
表1 免疫低浸潤組功能富集分析
圖1 三陰性乳腺癌免疫成分的一致性聚類分析
圖2 免疫分組相關(guān)生存分析
圖3 低免疫浸潤組的功能富集分析
2.3 基因差異分析 通過R包(limma)對TNBC患者的癌與癌旁組織樣本進行基因差異分析,得到1 304個差異基因,其中422個為高表達差異基因,882個為低表達差異基因。
2.4 篩選免疫分組的生物學標志物 為了篩選上述免疫分組的生物學標志物,我們通過1 000次Lasso-Logistic對TNBC差異分析基因進行降維分析。結(jié)果發(fā)現(xiàn)有36個基因可以作為免疫分組的生物學標志物(圖4),通過單因素Cox分析篩選與TNBC患者總生存相關(guān)的基因1 726個。上述結(jié)果相互取交集,得到36個免疫分組生物學標志物中有5個基因與TNBC患者總生存相關(guān),見圖5。通過ROC驗證此5個基因可以有效地反映免疫分組情況,AUC面積為0.946,見圖6。
4A:1 000次lasso logistic中每次分析的基因組合;4B:1 000次分析中各個基因出現(xiàn)的次數(shù),黑色虛線為出現(xiàn)900次,黑色虛線以上為該基因出現(xiàn)過900次以上圖4 免疫分型生物學標志物篩選
圖5 免疫分型核心基因篩選
圖6 核心基因的ROC曲線分析
2.5 免疫分組生物學標志物的生物功能分析 為了描述上述分析得到的5個免疫分組生物學標志物(FOLH1、WDR18、LINC00638、OAS3、SETDB2),我們采用WGCNA進行共表達分析,再通過基因富集分析描述與此5個基因共表達模塊的生物學功能,推測此5個基因的生物學功能。結(jié)果發(fā)現(xiàn),F(xiàn)OLH1共表達在黑色模塊中,WDR18共表達在天青色模塊中,這兩個基因主要生物學功能與腫瘤增殖相關(guān);LINC00638共表達在棕色模塊中,主要生物學功能與T細胞激活等免疫相關(guān);OAS3共表達在黃綠色模塊中,主要生物學功能與病毒基因降解通路相關(guān);SETDB2被分類在灰色模塊中,由于灰色模塊為非聚類基因集合,所以SETDB2在TNBC中發(fā)揮的作用還需要進一步研究。見圖7。
腫瘤微環(huán)境的改變已經(jīng)被廣泛認為是可以影響TNBC患者預后的重要靶標。但是我們發(fā)現(xiàn)目前對于腫瘤微環(huán)境與TNBC的研究略有不足,而且還沒有通過免疫微環(huán)境細胞成分分析TNBC患者預后的研究。本研究對TNBC患者的免疫微環(huán)境細胞浸潤情況進行分析,提出5個免疫相關(guān)預后生物學標志物,并描述了其在TNBC患者中的生物功能,為TNBC免疫治療提供了新的靶點。
有研究已經(jīng)證實,TNBC并不是傳統(tǒng)認識中的單一類型,同為TNBC亞型的患者存在著較大的生存差異,對不同治療方案的敏感性也不同。這與本研究的結(jié)論相同。本研究通過Cibersort對TNBC患者的TME細胞成分進行分析,并且發(fā)現(xiàn)TNBC患者可以通過TME細胞成分分為兩組,即“高免疫浸潤組”和“低免疫浸潤組”。結(jié)果顯示,低免疫浸潤組的人群預后不良,并且通過GSEA分析發(fā)現(xiàn)低免疫浸潤組人群中正向免疫調(diào)節(jié)相關(guān)通路和細胞刺激因子相關(guān)通路發(fā)揮了重要的作用。通過1 000次logisticlasso回歸進行特征選取,最后篩選出5個基因(FOLH1、WDR18、LINC00638、OAS3、SETDB2)為免疫相關(guān)預后標志物,再通過WGCNA分析發(fā)現(xiàn),WDR18在TNBC參與mRNA編輯過程影響預后。有研究表明,WDR18可以與TopBP1共同促進DNA損傷檢查點信號傳導[31],DNA損傷已經(jīng)被證明在乳腺癌中發(fā)揮重要的作用,與本研究的結(jié)果一致。還有研究發(fā)現(xiàn),LINC00638基因可以與HCP5、XIST和TP53TG1在新生兒敗血癥中通過內(nèi)源性RNA作用影響患兒預后[32]。LncRNA作為非編碼RNA本身沒有編碼蛋白的功能,但是其可以調(diào)節(jié)mRNA,是非常重要的。本研究結(jié)果發(fā)現(xiàn)LINC00638是TNBC免疫相關(guān)預后生物學標志物,參與T細胞激活等重要免疫通路,目前對于LINC00638的研究不足,還需要進一步研究。據(jù)報道,SETDB2是1型IFN信號傳導下游的干擾素刺激基因(ISG),并負責減弱Ⅰ型IFN和轉(zhuǎn)錄因子NFkB誘導的促炎和抗病毒基因[33-34];SETDB2在腫瘤中的異常表達與患者的耐藥性有關(guān)[35];SETDB2的低表達與晚期腎細胞腫瘤的轉(zhuǎn)移擴散有關(guān)[36]。本研究發(fā)現(xiàn),在TNBC患者中SETDB2高表達患者的預后比SETDB2低表達患者的預后好,這說明在TNBC中SETDB2是一個重要的預后保護因素,但是SETDB2在TNBC中發(fā)揮的生物學功能還需要進一步的研究。OAS3作為經(jīng)典的干擾素靶基因,已經(jīng)被證實參與細胞凋亡過程[37],并且與宮頸癌HPV感染相關(guān)且影響患者預后,迄今為止還沒有報道其與乳腺癌相關(guān)。本研究發(fā)現(xiàn),OAS3在TNBC患者中參與病毒基因降解功能,其低表達患者預后不良,為TNBC的預后保護因素。
7A:TNBC免疫相關(guān)基因的共表達聚類分析;7B:FOLH1生物學功能預測;7C:WDR18生物學功能預測;7D:LINC00638生物學功能預測;7E:OA53生物學功能預測圖7 WGCNA及核心基因的生物學功能預測
綜上所述,本研究篩選出TNBC患者免疫相關(guān)預后生物學標志FOLH1、WDR18、LINC00638、OAS3及SETDB2,并通過驗證它們可以反映TNBC患者的預后情況。但本研究還有一些缺點與不足:①研究的樣本量較小,對于TNBC總體人群的代表性有限,還需要后續(xù)大樣本的研究;②提出的生物學標志物還需要分子細胞學實驗的證明,分子機制還需要進一步的討論;③采用芯片測序技術(shù),由于技術(shù)本身的限制,存在批次效應有可能會導致數(shù)據(jù)的偏倚;④本研究分析結(jié)果還需要更多數(shù)據(jù)集進行驗證。