(青島大學(xué)附屬醫(yī)院胃腸外科,山東 青島 266003)
結(jié)直腸癌(CRC)作為最常見(jiàn)的消化道腫瘤之一,近年來(lái)在發(fā)展中國(guó)家的發(fā)病率快速增高[1]。我國(guó)CRC的發(fā)病率、死亡率近幾年也在逐步上升,已成為巨大的公共健康問(wèn)題。為了控制這種增長(zhǎng)趨勢(shì),通過(guò)加強(qiáng)人群篩選來(lái)預(yù)防和早期發(fā)現(xiàn)高危病人顯得尤為重要,對(duì)于我國(guó)東部地區(qū)以及60歲以上的高危人群需要更加有效的預(yù)防和治療措施[2]。全世界每年約有120萬(wàn)例新發(fā)CRC病人被確診,其中約50%的病人發(fā)生肝轉(zhuǎn)移,未經(jīng)治療的肝轉(zhuǎn)移病人12個(gè)月內(nèi)生存率約為零[3]。2005—2014年,美國(guó)的CRC的發(fā)病率每年下降約2%~3%,可能與新的篩選方案有關(guān),也可能與病人較高的根治性切除率相關(guān)[4]。CRC的治療方法包括手術(shù)、放療、化療和靶向治療,當(dāng)CRC局限于腸道時(shí)可通過(guò)手術(shù)治愈;然而,對(duì)于已經(jīng)擴(kuò)散的CRC或者術(shù)后復(fù)發(fā)的病人通常是無(wú)法治愈的[5]。CRCⅠ期病人的10年生存率為90%,但對(duì)于無(wú)法手術(shù)的Ⅳ期疾病病人,目前生存率只有5%[6]。對(duì)于肝轉(zhuǎn)移病人,只有少數(shù)早期的病人適合外科手術(shù)切除治療[7]。美國(guó)癌癥聯(lián)合委員會(huì)將越來(lái)越多的分子標(biāo)志物用于癌癥精準(zhǔn)的風(fēng)險(xiǎn)分層,從而更好地評(píng)估患者的治療方案和預(yù)后情況[8]。因此,開(kāi)發(fā)有效的生物標(biāo)記物進(jìn)行特異的靶向治療是極其必要的。生物標(biāo)志物能夠早期提示CRC肝轉(zhuǎn)移的情況,進(jìn)而提高CRC的預(yù)后預(yù)測(cè)水平。本研究利用生物信息學(xué)分析方法從公共基因芯片數(shù)據(jù)庫(kù)(GEO)中獲取有關(guān)CRC肝轉(zhuǎn)移的芯片,分析不同階段組織的差異表達(dá)基因,從而為CRC肝轉(zhuǎn)移的防治提供新的生物標(biāo)志物和治療靶點(diǎn)?,F(xiàn)將結(jié)果報(bào)告如下。
在GEO數(shù)據(jù)庫(kù)中檢索與CRC轉(zhuǎn)移密切相關(guān)的AFFY U133 PLUS2.0芯片數(shù)據(jù),選取其中樣本組織分期比較接近,同時(shí)數(shù)據(jù)量比較大的數(shù)據(jù)集作為分析數(shù)據(jù)集。其中GSE81980是早期(Ⅰ/Ⅱ)CRC樣本集,主要包含150個(gè)樣本信息(100個(gè)非轉(zhuǎn)移樣本和50個(gè)轉(zhuǎn)移樣本),GSE18105主要是Ⅱ/Ⅲ期腫瘤樣本,包含111個(gè)樣本(67個(gè)非轉(zhuǎn)移和44個(gè)轉(zhuǎn)移樣本)??紤]到兩批樣本腫瘤時(shí)期分布不一樣,將兩批樣本混合后隨機(jī)拆分為訓(xùn)練集195個(gè)樣本(75%)和驗(yàn)證集66個(gè)樣本(25%)。
1.2.1數(shù)據(jù)預(yù)處理 利用Transcriptome Analysis Console軟件對(duì)數(shù)據(jù)芯片中提供的原始數(shù)據(jù)(CEL)進(jìn)行Robust multi-chip average (RMA)歸一化處理,然后利用R-package Combat去除批次效應(yīng)。根據(jù)AFFY U133 PLUS2.0的基因注釋文件對(duì)探針進(jìn)行過(guò)濾,去除同時(shí)注釋到多個(gè)基因的探針,篩選平均信號(hào)值最高的探針信號(hào)值作為基因的表達(dá)值。然后篩選Average Exp≥6且Max Exp≥7的基因進(jìn)行后續(xù)分析。
1.2.2生物標(biāo)志物的篩選 轉(zhuǎn)移組與非轉(zhuǎn)移組間比較采用t檢驗(yàn)進(jìn)行統(tǒng)計(jì)學(xué)分析,以P<0.05作為篩選條件。對(duì)篩選基因進(jìn)行Lasso回歸算法分析,根據(jù)Lasso算法的分值進(jìn)行重要性排序,篩選重要性排序前12個(gè)基因作為潛在的生物標(biāo)志物。
1.2.3模型的建立 運(yùn)用邏輯回歸算法,根據(jù)上述12個(gè)基因的表達(dá)情況進(jìn)行機(jī)器學(xué)習(xí)分類。其中訓(xùn)練集195個(gè)樣本,驗(yàn)證集66個(gè)樣本(表1)。參數(shù)設(shè)置:最大迭代次數(shù)300,采用L2正則化,正則化系數(shù)λ設(shè)置為0.1。
表1 訓(xùn)練集和驗(yàn)證集模型構(gòu)建
TP:真陽(yáng)性, FN:假陰性,F(xiàn)P:假陽(yáng)性,TN:真陰性。
1.2.4GSEA分析 采用GSEA 3.0版本進(jìn)行分析。將GSE81980、GSE18105數(shù)據(jù)集中所有樣品納入GSEA,選擇C2 CGP基因集進(jìn)行分析。
1.2.5預(yù)后分析 使用在線Surv Express(http://bioinformatica.mty.itesm.mx:8080/Biomatec/SurvivaX.jsp)對(duì)篩選出的12個(gè)生物標(biāo)志物在CRC病人中的表達(dá)與預(yù)后的關(guān)系進(jìn)行分析。
轉(zhuǎn)移組和非轉(zhuǎn)移組通過(guò)t檢驗(yàn)分析,按照P<0.05作為篩選條件篩選到426個(gè)基因。用Lasso回歸算法對(duì)426個(gè)篩選基因進(jìn)行重要性排序,選重要性排序前12個(gè)基因作為潛在的生物標(biāo)志物,分別為CD163L1、FAM210B、LGR5、LRRC16A、PIK3R3、PLEKHA6、PROSER2、RBBP9、SEMA6D、STOM、THBS1、ZNF544。見(jiàn)表2。
根據(jù)受試者工作特征曲線(ROC曲線),同時(shí)兼顧靈敏度和特異度,ROC曲線下面積(AUC)>0.5的情況下,越接近于1,說(shuō)明診斷效果越好,AUC<0.5時(shí),說(shuō)明無(wú)診斷價(jià)值。本研究中訓(xùn)練集AUC=0.87,驗(yàn)證集AUC=0.84(圖1),其AUC>0.5,說(shuō)明兩數(shù)據(jù)集診斷效果非常好。
表2 重要性排序前12個(gè)基因
將所有的樣本數(shù)據(jù)進(jìn)行GSEA富集分析,選擇C2 CGP基因集進(jìn)行分析。研究結(jié)果顯示,非轉(zhuǎn)移組394/2737基因集上調(diào),轉(zhuǎn)移組2343/2737基因集上調(diào),其中多個(gè)轉(zhuǎn)移相關(guān)的基因在轉(zhuǎn)移組中表達(dá)上調(diào)。篩選GSEA顯著性基因組時(shí),多個(gè)轉(zhuǎn)移相關(guān)基因集上調(diào),以圓圈大小代表基因集的基因數(shù)目(圖3)。腫瘤肝轉(zhuǎn)移基因集:
ROESSLER_LIVER_CANCER_METASTASIS_DN NOMP值=0.002016129,
SWEET_KRAS_TARGETS_DNP值=0.004032258,
LOCKWOOD_AMPLIFIED_IN_LUNG_CANCERP值=0.0186722,
NIKOLSKY_BREAST_CANCER_15Q26_AMPLICONP值=0.018108651(見(jiàn)圖2)。
通過(guò)Surv Express網(wǎng)站對(duì)與CRC轉(zhuǎn)移相關(guān)的CD163L1、FAM210B、LGR5、LRRC16A、PIK3R3、PLEKHA6、PROSER2、RBBP9、SEMA6D、STOM、THBS1、ZNF544等基因在CRC中的表達(dá)與預(yù)后的關(guān)系進(jìn)行分析。結(jié)果表明上述基因高表達(dá)的CRC病人預(yù)后差。
圖1 訓(xùn)練集和驗(yàn)證集AUC
A:Roessler_Liver_Cancer_Metastasis_Dnnom(P=0.002,F(xiàn)DR=1.0,ES=0.512);B:Sweet_Kras_TarGets_Dn(P=0.004,F(xiàn)DR=1.0,ES=0.544);C:Lockwood_Amplified_In_Lung_Cancer(P=0.018,F(xiàn)DR=1.0,ES=0.450);D:Nikolsky_Breast_Cancer_15q26_Amplicon(P=0.018,F(xiàn)DR=1.0,ES=0.743)。富集基因集的顯著性以P<0.05判斷。FDR:錯(cuò)誤發(fā)現(xiàn)率。ES:富集分?jǐn)?shù)。
圖2高表達(dá)的癌組織GSEA
圈的大小代表基因集的基因數(shù)目,連線表示兩個(gè)基因集中共有基因數(shù)目的多少,圈的顏色代表富集的ES值,標(biāo)紅的標(biāo)簽為轉(zhuǎn)移相關(guān)的基因集,粉色的標(biāo)簽為非轉(zhuǎn)移組富集到的基因集。
圖3篩選GSEA顯著性P<0.05的genesets進(jìn)行網(wǎng)路圖展示
近年來(lái),GEO、TCGA、Array Express等眾多基因表達(dá)數(shù)據(jù)庫(kù)相繼建立。GEO致力于建立一個(gè)基因表達(dá)數(shù)據(jù)倉(cāng)庫(kù)和在線資源,支持公共使用和發(fā)布基因表達(dá)數(shù)據(jù),用于檢索從任何物種來(lái)源的基因表達(dá)數(shù)據(jù),是生物信息學(xué)依賴的重要資源[9-11]。生物信息學(xué)是以計(jì)算機(jī)為工具對(duì)生物信息進(jìn)行儲(chǔ)存、檢索和分析的科學(xué),研究重點(diǎn)體現(xiàn)在基因組學(xué)和蛋白質(zhì)組學(xué)兩方面,即從核酸和蛋白質(zhì)序列出發(fā),分析序列表達(dá)的結(jié)構(gòu)功能等生物學(xué)信息。隨著高通量測(cè)序、計(jì)算機(jī)科學(xué)以及生命科學(xué)的迅速發(fā)展,生物信息學(xué)在基因調(diào)控網(wǎng)絡(luò)和蛋白質(zhì)結(jié)構(gòu)功能研究中的重要性顯得日益突出。本研究從GEO數(shù)據(jù)庫(kù)中下載了GSE81980、GSE18105兩套同一平臺(tái)上的基因芯片,并用RMA歸一化處理,分析平臺(tái)進(jìn)行差異基因分析等,挖掘出12個(gè)基因,為CRC肝轉(zhuǎn)移的預(yù)防、診斷、治療提供了新的研究方向。但本研究存在一些不足,首先,研究數(shù)據(jù)是從在線的公共數(shù)據(jù)庫(kù)中獲取的,RNA檢測(cè)平臺(tái)差異是不可避免的因素,可能限制當(dāng)前結(jié)果的準(zhǔn)確性;其次,由于RNA檢測(cè)樣品來(lái)源的多樣性,因此需要在臨床上收集更多的樣品進(jìn)行熒光實(shí)時(shí)定量聚合酶鏈反應(yīng)檢測(cè)。
一般差異分析(GO和Pathway)傾向于比較兩組間的基因表達(dá)差異,重點(diǎn)是少數(shù)幾個(gè)基因表達(dá)的明顯上調(diào)或下調(diào),這些差異分析往往忽略了一些沒(méi)有顯著差異表達(dá)但具有重要生物學(xué)意義的基因。由于忽略了這些基因的生物學(xué)特性,基因調(diào)控網(wǎng)絡(luò)與有價(jià)值基因功能信息之間的關(guān)系就不可能被揭示。GSEA不需要指定明確的差異基因閾值。該算法根據(jù)實(shí)際數(shù)據(jù)的總體趨勢(shì),為當(dāng)前芯片分析存在的問(wèn)題提供了合理的解決方案。本研究所有樣本數(shù)據(jù)進(jìn)行GSEA富集分析,并用C2 KEGG基因集進(jìn)行進(jìn)一步分析。489個(gè)基因組中有329個(gè)在轉(zhuǎn)移表型上調(diào),9個(gè)基因集在P<0.05時(shí)顯著富集,489個(gè)基因集中有160個(gè)在無(wú)轉(zhuǎn)移表型上調(diào)。
目前,本研究的相關(guān)基因在CRC肝轉(zhuǎn)移中的分子機(jī)制及相關(guān)信號(hào)轉(zhuǎn)導(dǎo)通路具體機(jī)制尚不清楚,KATTAN等[12]研究發(fā)現(xiàn)CD163L1受miRNA的調(diào)控,因此,它可以作為口腔鱗狀細(xì)胞癌的生物標(biāo)志物。SUN等[13]采用細(xì)胞增殖、集落形成和侵襲分析的方法評(píng)估FAM210B在人癌細(xì)胞中的作用,證明FAM210B丟失與癌癥轉(zhuǎn)移顯著相關(guān)。LGR5在肺癌、乳腺癌、宮頸癌、胃癌、CRC、胰腺癌中的表達(dá)均有報(bào)道,LGR5在血管生成和腫瘤預(yù)后中起重要作用[13-19]。WEI等[20]研究發(fā)現(xiàn)LRRC16A在調(diào)節(jié)急性呼吸窘迫綜合征基線血小板計(jì)數(shù)中起介導(dǎo)作用。GROSSMANN等[21]發(fā)現(xiàn)PIK3R3參與癌癥相關(guān)信號(hào)的傳導(dǎo)和細(xì)胞生長(zhǎng)。LANGEVIN等[22]發(fā)現(xiàn)PLEKHA6在鑒定頭頸部鱗狀細(xì)胞癌血液DNA甲基化標(biāo)記物中起重要作用。HAMADA等[23]發(fā)現(xiàn)PROSER2在人胎盤(pán)生殖細(xì)胞DNA甲基化中起印記基因的作用。SHIELDS等[24]認(rèn)為RBBP9具有胰腺腫瘤形成所需的絲氨酸水解酶活性。PENG等[25]發(fā)現(xiàn)SEMA6D是BMP信號(hào)傳導(dǎo)的靶標(biāo),并且SEMAPHORIN信號(hào)傳導(dǎo)對(duì)房室通道中的間充質(zhì)細(xì)胞生成發(fā)揮著重要作用,揭示了一種新型調(diào)節(jié)房室間隔的BMP-SEMA6D-Rho軸。PAL等[26]認(rèn)為T(mén)HBS1在血管生成和腫瘤進(jìn)展中起重要作用,THBS1是一種腫瘤特異性細(xì)胞外基質(zhì)蛋白,由TGFB1誘導(dǎo),促進(jìn)癌細(xì)胞的遷移,通過(guò)整合素信號(hào)刺激MMPS的表達(dá),在口腔鱗狀細(xì)胞癌的侵襲中起重要作用。WALTON等[27]認(rèn)為ZNF544參與DNA甲基化的變異,從而引起多動(dòng)癥。研究表明篩選出的12個(gè)基因,部分基因在相關(guān)癌癥轉(zhuǎn)移中起重要作用,但具體分子機(jī)制及相關(guān)信號(hào)轉(zhuǎn)導(dǎo)通路仍需進(jìn)一步研究。
綜上所述,隨著微陣列技術(shù)的日趨完善,研究人員可以進(jìn)行轉(zhuǎn)錄組研究,尋找感興趣的標(biāo)記基因;臨床醫(yī)師可參考基因及蛋白質(zhì)組學(xué)研究成果,制定個(gè)體化的治療方案。目前輔助化療的分子標(biāo)志物研究還處于初始階段,部分成果僅供參考,但一部分成果已經(jīng)指導(dǎo)臨床實(shí)踐,目前,一線和二線姑息治療方法有所改善,輔助治療的生存率有所提高。通過(guò)生物標(biāo)志物來(lái)確定治療方案和新輔助療法,將為改善病人預(yù)后提供機(jī)會(huì)。選擇精準(zhǔn)的“個(gè)體化”化療方案,篩選化療或靶向治療的獲益人群,可使更多CRC肝轉(zhuǎn)移的病人能夠通過(guò)篩選進(jìn)行精準(zhǔn)治療,最大限度地避免無(wú)效醫(yī)療。隨著基因組學(xué)及蛋白組學(xué)的快速發(fā)展,CRC肝轉(zhuǎn)移的個(gè)體化治療仍有許多問(wèn)題有待解決,結(jié)合基因的表達(dá)情況以選擇合理的治療方式可能是將來(lái)精準(zhǔn)治療的方向。