梁寶寶,黃晶晶,林 帥,毛國(guó)超,周章劍,王亞晨,康華峰,張淑群△
1.西安交通大學(xué)第二附屬醫(yī)院腫瘤科,陜西西安 710004; 2.西安交通大學(xué)第二附屬醫(yī)院普通外科,陜西西安 710004;3.西安交通大學(xué)第二附屬醫(yī)院皮膚科,陜西西安 710004
乳腺癌是全世界女性最常見的惡性腫瘤之一,也是癌癥死亡的主要原因[1],其危險(xiǎn)因素主要有年齡、家族病史、生殖因素、絕經(jīng)后女性肥胖和激素等[2]。內(nèi)源性和外源性雌激素暴露與乳腺癌風(fēng)險(xiǎn)增加有關(guān)。為了提供更有效的診斷和治療策略,持續(xù)努力地了解與乳腺癌發(fā)病和發(fā)展進(jìn)程有牽連的關(guān)鍵分子十分必要。目前,雌激素受體(ER)、孕激素受體(PR)、Ki67和人表皮生長(zhǎng)因子受體2(HER2)是可以預(yù)示乳腺癌治療的預(yù)后標(biāo)志物?;谶@些基因確定的腫瘤細(xì)胞表達(dá),已對(duì)乳腺癌的5種分子亞型進(jìn)行了分類[3],包括以下子類型:lumina A(ER+、PR+、HER-和Ki67 < 14%);luminal B的HER-2-(ER+、PR+、HER-和Ki67≥14%);luminal B的HER-2+(ER+、PR+、HER+、任何數(shù)值Ki67);HER-2型(ER-、PR-、HER+、任何數(shù)值Ki67);三陰性(ER-、PR-、HER-、CK5/6+和(或)egfr+)[4-6]。有研究表明,乳腺癌具有常見的體細(xì)胞拷貝數(shù)變化,這些變化因種族而異,并且與生存有關(guān)[7],種族差異存在于不同年齡女性[8]。黑種人婦女更有可能在較年輕時(shí)被確診,并伴隨更多的生物侵略性三陰性亞型[9]。與白種人婦女比較,年齡小于40歲的年輕黑種人婦女乳腺癌病死率更高。在治療和預(yù)后的最新進(jìn)展中,乳腺癌病死率的種族差距還在逐漸擴(kuò)大[10]。種族的生存差異可能是因?yàn)樵谠\斷時(shí)獲得護(hù)理時(shí)間、腫瘤形態(tài)階段、治療的質(zhì)量和合適的輔助治療等方面有所不同[11-12]。有研究指出,即使在調(diào)整年齡、腫瘤大小、淋巴結(jié)狀態(tài)、激素受體狀態(tài)和組織學(xué)因素后,黑種人婦女在所有疾病階段的病死率均較高[13]。因此,本文旨在通過高通量測(cè)序的轉(zhuǎn)錄組數(shù)據(jù),研究不同人種的乳腺癌差異表達(dá)基因和其所在的功能通路,并對(duì)關(guān)鍵蛋白調(diào)控基因進(jìn)行生存分析,為乳腺癌的臨床治療提供新的見解與方向。
1.1一般資料 本研究使用的不同人種乳腺癌數(shù)據(jù)來源于TCGA數(shù)據(jù)庫(kù)(https://portal.gdc.cancer.gov/),分別下載了RNA-seq counts表達(dá)譜數(shù)據(jù)和臨床樣本數(shù)據(jù)。共有925例乳腺癌樣本,包括745例白種人乳腺癌樣本和180例黑種人或非裔美國(guó)人乳腺癌樣本。
1.2方法
1.2.1轉(zhuǎn)錄組數(shù)據(jù)預(yù)處理 將原始測(cè)序數(shù)據(jù)首先通過STAR軟件[14]建立索引,把reads比對(duì)到人類參考基因組hg38生存BAM文件。之后使用HTSeq軟件[15]進(jìn)行基因表達(dá)定量以得到RNA-seq counts數(shù)據(jù)。
1.2.2差異表達(dá)基因篩選 在TCGA數(shù)據(jù)集745例白種人乳腺癌樣本和180例黑種人或非裔美國(guó)人乳腺癌樣本中使用R軟件的DESeq2程序包對(duì)RNA-seq counts數(shù)據(jù)進(jìn)行歸一化,之后再分析差異表達(dá)基因。使用t檢驗(yàn)和差異倍數(shù)(FC)法篩選差異表達(dá)基因,同時(shí)采用多重檢驗(yàn)校正方法Benjamini-Hochberg對(duì)P值進(jìn)行校正并控制錯(cuò)誤發(fā)現(xiàn)率(FDR)。本文定義符合FDR < 0.05且 | log2FC | ≥ 1的基因?yàn)椴町惐磉_(dá)基因。
1.2.3功能富集分析 為詳細(xì)闡明不同人種差異表達(dá)基因所在的通路,本文應(yīng)用R軟件的clusterProfiler、org.Hs.eg.db等程序包進(jìn)行基因本體論(GO)注釋[16]和京都基因與基因組百科全書(KEGG)富集[17]分析。GO注釋類型包括:(1)基因參與的生物學(xué)過程;(2)基因所處的細(xì)胞組分;(3)基因執(zhí)行的分子功能。同上,采用多重檢驗(yàn)校正方法對(duì)P值進(jìn)行校正,設(shè)置滿足P.adjust < 0.01的GO術(shù)語(yǔ)和KEGG通路具有統(tǒng)計(jì)學(xué)顯著性。
1.2.4蛋白質(zhì)相互作用(PPI)網(wǎng)絡(luò)構(gòu)建及模塊挖掘 采用STRING數(shù)據(jù)庫(kù)中的PPI信息進(jìn)行網(wǎng)絡(luò)構(gòu)建[18],設(shè)置最低相互作用分?jǐn)?shù)為0.7,并用Cytoscape軟件進(jìn)行可視化繪圖。使用其中的分子復(fù)合物檢測(cè)(MCODE)插件在構(gòu)建PPI網(wǎng)絡(luò)中進(jìn)行模塊挖掘。
1.2.5生存分析 本文標(biāo)記關(guān)鍵蛋白調(diào)控基因中表達(dá)高于表達(dá)值中位數(shù)為高,低于表達(dá)值中位數(shù)為低,結(jié)合R語(yǔ)言的predict函數(shù)對(duì)整體關(guān)鍵蛋白調(diào)控基因進(jìn)行風(fēng)險(xiǎn)打分,得到高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組。同時(shí)使用臨床信息數(shù)據(jù)繪制生存曲線進(jìn)行驗(yàn)證。
2.1不同人種乳腺癌差異表達(dá)基因分析結(jié)果 在白人乳腺癌組和黑種人或非裔美國(guó)人乳腺癌組基因表達(dá)譜數(shù)據(jù)中,使用t檢驗(yàn)和FC法進(jìn)行差異表達(dá)基因篩選,設(shè)置FDR < 0.05且 | log2FC | ≥ 1的閾值,共篩選出894個(gè)差異表達(dá)基因,其中上調(diào)基因875個(gè),下調(diào)基因19個(gè)?;鹕綀D顯示白種人乳腺癌組和黑種人或非裔美國(guó)人乳腺癌組差異表達(dá)基因的表達(dá)情況。橫坐標(biāo)log2表示以2為底白種人乳腺癌組基因表達(dá)值比黑種人或非裔美國(guó)人乳腺癌組基因表達(dá)值的對(duì)數(shù)值,差異越大其絕對(duì)值越高;縱坐標(biāo)-log10FDR表示以10為底FDR的對(duì)數(shù)值的相反數(shù),差異越明顯其數(shù)值越高。圖中右虛線右邊的點(diǎn)代表差異表達(dá)的上調(diào)基因,虛線中間的點(diǎn)代表低于閾值(FDR < 0.05且 | log2FC |≥ 1)而被認(rèn)為無(wú)差異的基因,左虛線左邊的點(diǎn)表示差異表達(dá)下調(diào)的基因,差異表達(dá)情況見圖1。最大的5個(gè)上調(diào)和5個(gè)下調(diào)基因見表1。
圖1 不同人種乳腺癌差異表達(dá)基因火山圖
表1 最大的5個(gè)上調(diào)和5個(gè)下調(diào)基因
2.2差異表達(dá)基因功能富集分析 對(duì)差異表達(dá)基因進(jìn)行GO注釋和KEGG富集分析,結(jié)果分別富集到1 857條GO生物學(xué)通路,259條GO細(xì)胞組分通路,364條GO分子功能通路,137條KEGG通路。符合閾值P.adjust<0.01的生物學(xué)術(shù)語(yǔ)12條,圖2展示了最顯著的5條,它們主要與角化作用、表皮細(xì)胞分化等有關(guān);細(xì)胞組分術(shù)語(yǔ)6條,圖3展示了最顯著的5條,主要與角質(zhì)化包膜、中間絲細(xì)胞骨架、角蛋白絲等有關(guān);分子功能術(shù)語(yǔ)2條,見圖4,主要與皮膚表皮的結(jié)構(gòu)成分、葡萄糖醛酸轉(zhuǎn)移酶活性有關(guān)。符合閾值P.adjust < 0.01的KEGG通路10條,圖5展示了最顯著的5條,它們主要與細(xì)胞色素P450代謝異種生物、戊糖和葡萄糖醛酸轉(zhuǎn)換、化學(xué)致癌作用等有關(guān)。
2.3差異表達(dá)基因PPI網(wǎng)絡(luò)構(gòu)建及模塊挖掘 在調(diào)節(jié)生物學(xué)進(jìn)程中,蛋白與PPI起至關(guān)重要的作用。對(duì)差異表達(dá)基因進(jìn)行PPI網(wǎng)絡(luò)構(gòu)建可展示這種互相作用關(guān)系,本文選擇互相作用得分大于0.7分的結(jié)果,導(dǎo)入Cytoscape軟件見圖6。在MCODE插件中進(jìn)行模塊聚類,可分為3個(gè)主要模塊,見表2。3個(gè)種子節(jié)點(diǎn)基因分別為CASP14、MYF6和ALB。
2.4關(guān)鍵蛋白調(diào)控基因生存分析 為驗(yàn)證關(guān)鍵的種子節(jié)點(diǎn)基因與生存率之間的關(guān)系,繪制了Kaplan-Meier曲線,見圖7。結(jié)果表明,基因CASP14、MYF6和ALB表達(dá)的升高所對(duì)應(yīng)的乳腺癌患者總體生存率明顯升高,差異均有統(tǒng)計(jì)學(xué)意義(P<0.05)。
注:縱坐標(biāo)表示富集到的不同GO生物學(xué)過程,橫坐標(biāo)表示注釋到某條術(shù)語(yǔ)的基因數(shù)目。
注:縱坐標(biāo)表示富集到的不同GO細(xì)胞組分,橫坐標(biāo)表示注釋到某條術(shù)語(yǔ)的基因數(shù)目。
注:縱坐標(biāo)表示富集到的不同GO分子功能,橫坐標(biāo)表示注釋到某條術(shù)語(yǔ)的基因數(shù)目。
注:縱坐標(biāo)表示富集到的不同KEGG通路,橫坐標(biāo)表示注釋到某條通路的基因數(shù)目。
圖6 差異表達(dá)基因的PPI網(wǎng)絡(luò)圖
表2 PPI網(wǎng)絡(luò)中對(duì)應(yīng)的模塊信息
圖7 Kaplan-Meier生存曲線
乳腺癌是女性最常見的癌癥,占所有女性癌癥的30%[19]。許多患有原發(fā)腫瘤或局部晚期乳腺癌的患者接受新輔助化療,此方法具有降低腫瘤分期的潛在好處,同時(shí)可減少手術(shù)范圍,還可以早期評(píng)估全身治療的療效。有研究報(bào)道了包括乳腺癌在內(nèi)的多種惡性腫瘤在預(yù)后方面的種族差異,與白種人比較,非白種人患者生存期較差,腫瘤中存在的種族差異已歸因于許多因素,包括不同的腫瘤生物學(xué)、不積極的治療及未能尋求醫(yī)療護(hù)理[20]。
本研究旨在利用TCGA數(shù)據(jù)庫(kù)中不同人種乳腺癌的轉(zhuǎn)錄組表達(dá)譜數(shù)據(jù)和臨床信息數(shù)據(jù)進(jìn)行生物信息學(xué)分析。鑒定出894個(gè)差異表達(dá)基因,其中上調(diào)基因875個(gè),下調(diào)基因19個(gè)。差異最大的上調(diào)基因有RNU1-11P、MAGEA4、FTHL17、SCARNA5、RNU1-88P,差異最大的下調(diào)基因有CSN2、LALBA、IAPP、GABRA1、XAGE3。通過GO注釋和KEGG富集分析發(fā)現(xiàn),GO主要的生物學(xué)通路有角化作用、表皮細(xì)胞分化等;GO主要的細(xì)胞組分通路有角質(zhì)化包膜、中間絲細(xì)胞骨架、角蛋白絲等;GO主要的分子功能通路有皮膚表皮的結(jié)構(gòu)成分、葡萄糖醛酸轉(zhuǎn)移酶活性等。KEGG主要富集通路為細(xì)胞色素P450代謝異種生物、戊糖和葡萄糖醛酸轉(zhuǎn)換、化學(xué)致癌作用等。另外,對(duì)差異表達(dá)基因進(jìn)行PPI網(wǎng)絡(luò)構(gòu)建和模塊分析,結(jié)果顯示,3個(gè)主要模塊被挖掘,其中CASP14、MYF6和ALB基因被鑒定為關(guān)鍵蛋白調(diào)控基因,并且與乳腺癌患者的生存有明顯相關(guān)性。
有研究通過評(píng)估乳腺癌患者外周血中2個(gè)MAGE轉(zhuǎn)錄本(MAGE-A3、MAGE-A4)的臨床可靠性和準(zhǔn)確性發(fā)現(xiàn),MAGE-A3的存在與淋巴結(jié)狀態(tài)明顯相關(guān),MAGE-A4陽(yáng)性與組織學(xué)分級(jí)明顯相關(guān),它們的反轉(zhuǎn)錄聚合酶鏈反應(yīng)檢測(cè)可能對(duì)預(yù)后有預(yù)測(cè)意義,有望成為乳腺癌的特異性腫瘤標(biāo)志物[21]。對(duì)LALBA基因與缺氧相關(guān)特征的研究表明,此基因可以作為乳腺癌的潛在預(yù)后生物標(biāo)志物[22]。差異表達(dá)基因,如GABRA4、GABRG1和GABRA1被確定為乳腺癌患者的潛在生物標(biāo)志物[23]。根據(jù)公共數(shù)據(jù)庫(kù),高CASP14表達(dá)是與增殖、TNBC表型和癌干性相關(guān)的乳腺癌侵襲性標(biāo)志物[24]。雌激素醌的清蛋白和血紅蛋白胼合物是早期發(fā)現(xiàn)乳腺癌有前途的生物標(biāo)志物[25]。
此外,本研究也存在不足之處。生物信息學(xué)方法進(jìn)行研究的局限性表現(xiàn)在其部分結(jié)果需要進(jìn)一步的功能實(shí)驗(yàn)驗(yàn)證。同時(shí),由于乳腺癌發(fā)生機(jī)制的個(gè)體異質(zhì)性和研究樣本數(shù)量的有限性,本文僅收集到白種人和黑種人或非裔美國(guó)人乳腺癌的數(shù)據(jù)信息,因此,研究結(jié)果可能只適合于部分乳腺癌患者。
綜上所述,本研究通過分析不同人種乳腺癌轉(zhuǎn)錄組層面數(shù)據(jù),尋找相關(guān)差異表達(dá)基因,進(jìn)行GO注釋和KEGG富集分析,并對(duì)關(guān)鍵蛋白調(diào)控基因結(jié)合臨床信息進(jìn)行生存分析。研究結(jié)果可以為更深刻認(rèn)識(shí)不同人種乳腺癌之間的分子機(jī)制提供新的見解。
國(guó)際檢驗(yàn)醫(yī)學(xué)雜志2021年23期