何文君,石張鎮(zhèn),胡南均,孫延霞
(吉林大學(xué)中日聯(lián)誼醫(yī)院 血液腫瘤科,吉林 長春130033)
急性髓系白血病(AML)是一種骨髓造血干/祖細(xì)胞的惡性克隆性疾病,其主要特征是骨髓和外周血中原始和未成熟的骨髓細(xì)胞發(fā)育不良。多數(shù)情況下病情急、重,預(yù)后差,不及時治療可能危及生命[1]。盡管已經(jīng)進(jìn)行了廣泛的研究來識別和發(fā)現(xiàn)預(yù)后標(biāo)記,但AML的死亡率仍然很高。近幾十年來,大量研究表明許多基因突變和基因異常表達(dá)與AML的預(yù)后密切相關(guān)。已經(jīng)報道的具有預(yù)后意義的突變基因包括FLT3、KIT、CEBPA、N-RAS、FES、FOS、GATA-1、JUN B、MPL、MYC、p53、PU.1、RB、WT1、RUNX1、WNT、NPM1、CBF、RAR-α、HOX、MLL[2-4]。目前臨床實踐中廣泛使用NPM1、WT1、CEBPA和FLT3突變來評估AML危險分層及指導(dǎo)治療[5],但是很多病例不存在上述基因突變,所以這些患者很難被準(zhǔn)確評估其預(yù)后。最近的研究表明,新的AML生物標(biāo)志物的識別有助于更好地理解疾病的分子基礎(chǔ),對AML的篩查、診斷、預(yù)后和監(jiān)測以及評估個體治療反應(yīng)都非常有益[4]。因此,迫切需要探索新的準(zhǔn)確的生物標(biāo)志物來改善AML風(fēng)險分層,評估預(yù)后。本研究基于對AML患者基因表達(dá)譜的數(shù)據(jù)分析,運用機器學(xué)習(xí)算法,構(gòu)建了AML 1年預(yù)后生存模型。
首先,從GDC(Genomic Data Commons)的外部鏈接Broad Firehose數(shù)據(jù)庫(Firehose數(shù)據(jù)庫中AML項目源于美國麻省理工學(xué)院和哈佛大學(xué)研究所共建的Broadinstitute運行的GDAC,提供較為完善的以TCGA數(shù)據(jù)為基礎(chǔ)的各類信息檢索)中下載關(guān)于AML患者的臨床及轉(zhuǎn)錄組數(shù)據(jù),篩選出符合要求的生存期及mRNA測序數(shù)據(jù)的病歷共163例,病例截止時間為2016年1月28日。
基于R語言對上述數(shù)據(jù)集進(jìn)行預(yù)處理:以生存期1年為界限將163例患者分為≥1年生存期、<1年生存期兩組,根據(jù)表達(dá)量對基因進(jìn)行過濾,過濾掉低表達(dá)量的基因,本研究自定義該閾值為表達(dá)量為0的值≥10個的基因,并形成數(shù)據(jù)矩陣。利用R語言的DESeq程序包,以|log2FoldChange|>1.0,調(diào)整后P值<0.05作為篩選條件,鑒別差異表達(dá)基因(DEGs)。
篩選|log2FoldChange|≥1.4,校正后P值<0.05的差異表達(dá)基因共20個(表1),利用基于R語言的Rattle包,首先將20個差異表達(dá)基因數(shù)集進(jìn)行背景矯正和歸一化處理,原始測序數(shù)據(jù)經(jīng)過[0,1]轉(zhuǎn)換,將163名患者以7∶3比例分為訓(xùn)練集和內(nèi)部驗證集,構(gòu)建決策樹、RF、Boost、SVM、線性邏輯回歸、ANN生存分析模型,利用受試者工作特征曲線(ROC)評估模型預(yù)測預(yù)后能力,并進(jìn)行內(nèi)部數(shù)據(jù)驗證,從而篩選出AUC值最高的Boost模型作為最理想的預(yù)后模型。
通過使用R語言DESeq程序包對數(shù)據(jù)集進(jìn)行差異基因識別,以校正后P值<0.05,|log2FoldChange|≥1.4作為篩選標(biāo)準(zhǔn),結(jié)果共發(fā)現(xiàn)20個差異表達(dá)基因。其中,表達(dá)水平上調(diào)的基因5個(EBF4、MTUS2、NT5E、AEF2、IGDCC4),表達(dá)水平下調(diào)的基因15個(ADAMTS2、TRPM4、PACSIN1、CACNG4、SPON1、CCDC3、C10orf72、MAOA、ESPN、CIQA、LILRA4、UBXN10、LIF、WDR86、PEG10)。差異表達(dá)基因的情況見表1。
表1 差異表達(dá)基因
機器學(xué)習(xí)模型對訓(xùn)練集學(xué)習(xí)其規(guī)律后,對驗證集進(jìn)行預(yù)測,從而評價決策樹、RF、Boost、SVM、線性回歸、ANN預(yù)測準(zhǔn)確率。決策樹的AUC值為0.63,RF的AUC值為0.72,Boost的AUC值為0.75,SVM的AUC值為0.72,線性回歸的AUC值為0.71,ANN的AUC值為0.66。經(jīng)ROC曲線評判,結(jié)果顯示Boost對AML患者1年生存情況的預(yù)測效果更佳,詳情見圖1-6,6種預(yù)后模型預(yù)測能力對比見表2。
AML是一種異質(zhì)性血液系統(tǒng)惡性腫瘤,死亡率高,預(yù)后較差,遺傳學(xué)和表觀遺傳學(xué)異常在其發(fā)病的不同階段、疾病預(yù)后和臨床特點等方面起著至關(guān)重要的作用。因此,研究AML遺傳學(xué)和表觀遺傳學(xué)異常、全面認(rèn)識發(fā)病機制、探索新的預(yù)后基因是目前亟待解決的問題。
圖1 決策樹預(yù)測模型ROC曲線 圖2 RF預(yù)測模型ROC曲線 圖3 Boost預(yù)測模型ROC曲線
圖4 SVM預(yù)測模型ROC曲線 圖5 線性回歸預(yù)測模型ROC曲線 圖6 ANN預(yù)測模型ROC曲線
表2 6種預(yù)后模型預(yù)測能力對比
一項納入200例確診為AML患者的TCGA-AML子研究通過全基因組(50例)、全外顯子測序(150例),以及RNA和miRNA測序和DNA甲基化分析,發(fā)現(xiàn)幾乎所有樣本在與發(fā)病機制有關(guān)的九類基因中至少有1個顯著突變,包括:轉(zhuǎn)錄因子融合、NPM1基因、腫瘤抑制基因、DNA甲基化相關(guān)基因、信號基因、染色質(zhì)修飾基因、髓樣轉(zhuǎn)錄因子基因、內(nèi)聚蛋白復(fù)合物基因和剪接體復(fù)合物基因,這些基因突變與患者預(yù)后密切相關(guān)[6]。而近年來的研究表明,影響患者預(yù)后的因素除了與患者的一般臨床資料、治療方案、染色體異常、表觀遺傳因子突變、DNA甲基化、組蛋白翻譯后修飾、miRNA、蛋白質(zhì)組學(xué)等相關(guān)外[4],基因表達(dá)量也可作為AML患者預(yù)后的標(biāo)志。一項210名接受強化化療的細(xì)胞遺傳學(xué)正?;颊叩年犃醒芯勘砻鳎珽RG基因高表達(dá)與較低的完全緩解率(CRs),較短的中位無進(jìn)展生存期(PFS)相關(guān),高ERG表達(dá)水平是一種負(fù)性預(yù)測因子[7]。一項回顧性研究表明,骨髓中SET基因表達(dá)水平與AML發(fā)病及其預(yù)后有顯著相關(guān)性,SET基因高表達(dá)組中位總生存期 (OS)、PFS明顯低于低表達(dá)組[8]。最近一項納入111例正常核型AML患者的研究表明,BAALC和(或)MN1基因高表達(dá)組預(yù)后不佳,CRs降低,BAALC和MN1表達(dá)水平可用于更精確的正常核型AML患者的風(fēng)險分層,特別是 FLT3-ITD-/NPM1-的患者,可將中間風(fēng)險組轉(zhuǎn)變?yōu)轭A(yù)后不佳組[9]。
隨著大規(guī)?;蚪M學(xué)測序的興起,機器學(xué)習(xí)(ML)算法越來越多地被應(yīng)用到基因表達(dá)分析中,目的是對腫瘤進(jìn)行分類,預(yù)測生存,確定治療目標(biāo),并根據(jù)功能對基因進(jìn)行分類[10-13]。近年興起的機器學(xué)習(xí)算法,如基于統(tǒng)計學(xué)習(xí)理論的決策樹、RF、SVM、線性回歸、ANN適用于高維數(shù)據(jù)的分析,可以得到具有較好泛化能力的預(yù)測模型。董華等人使用機器學(xué)習(xí)中的決策樹算法實現(xiàn)了對三陰性乳腺癌的預(yù)測,預(yù)測模型的準(zhǔn)確率達(dá)95.5%[14]。Luan等人使用支持向量機對乳腺癌患者進(jìn)行智能決策,該實驗表明支持向量機在該疾病的診斷中效果良好[15]。Boost是一種通過累加弱模型來產(chǎn)生一個強模型的機器學(xué)習(xí)方法,他是通過不斷消除殘差來提高模型精度,著重優(yōu)化了兩個不同的方面:偏差 (Bias)和方差(Variance),能夠很靈活地擬合各種復(fù)雜的訓(xùn)練樣本。一項預(yù)測668例顱內(nèi)腫瘤手術(shù)24小時內(nèi)發(fā)生早期術(shù)后并發(fā)癥的研究表明,應(yīng)用梯度Boost機器學(xué)習(xí)算法,可以創(chuàng)建一個優(yōu)于傳統(tǒng)統(tǒng)計方法的預(yù)測模型[16]。
本課題組前期已經(jīng)完成人工神經(jīng)網(wǎng)絡(luò)建立術(shù)前判斷進(jìn)展期胃癌淋巴結(jié)轉(zhuǎn)移的診斷模型,其優(yōu)于傳統(tǒng)的Logistic多元回歸分析,有望幫助相關(guān)科室提高判斷淋巴結(jié)轉(zhuǎn)移的準(zhǔn)確率[17]。本研究以AML為研究對象,利用Firehose數(shù)據(jù)庫數(shù)據(jù)進(jìn)行差異基因表達(dá)分析。通過分析,篩選出20個基因為預(yù)后相關(guān)基因構(gòu)建AML預(yù)后預(yù)測模型,Boost模型AUC值0.7534,能較準(zhǔn)確的通過基因表達(dá)水平預(yù)測AML預(yù)后,盡管本研究僅基于基因表達(dá)量,通過生物信息學(xué)分析角度研究急性髓系白血病潛在的預(yù)后標(biāo)志物,但仍然為急性髓系白血病的進(jìn)一步危險分層及預(yù)后評估提供了新的思路,希望在以后的工作中進(jìn)行多組學(xué)分析建模,更加精準(zhǔn)地判斷和評估AML預(yù)后。