張雨綺 林勇
摘? 要: 腫瘤免疫治療應答的預測對腫瘤治療方案設(shè)計及治療有著重要的意義。本文引入基于隨機森林的機器學習方法,將病人黑色素瘤組織轉(zhuǎn)錄組RNA-seq的基因表達譜作為特征,對免疫檢查點阻斷治療的結(jié)果進行預測研究。對病人的基因表達譜使用隨機森林算法來構(gòu)建預測模型,并與Logistic回歸模型和XGBoost模型進行比較。實驗結(jié)果表明,隨機森林模型對免疫檢查點阻斷治療的應答能夠進行較準確的預測,并且較Logistic回歸模型和XGBoost模型預測效果更好。
關(guān)鍵詞: 黑色素瘤;免疫檢查點阻斷;機器學習;隨機森林;分類預測
中圖分類號: Q789? ? 文獻標識碼: A? ? DOI:10.3969/j.issn.1003-6970.2019.01.021
【Abstract】: Prediction of the response to tumor immunotherapy is of great significance to the design of tumor treatment and treatment. In this paper, random forest machine learning method is introduced, and gene expression profile of patientsmelanoma RNA-seq was taken as characteristics to predict the response to immune checkpoint blockade.Random forest algorithm was used to construct the prediction model for the gene expression profile of patients, and compared with Logistic regression analysis and XGBoost algorithm. The experimental results show that random forest model had a great prediction accuracy to the response to immune checkpoint blockade and was better than Logistic regression model and XGBoost model.
【Key words】: Melanoma; Immune checkpoint blockade; Machine learning; Random forest; Classification prediction
0? 引言
近年來,腫瘤免疫治療已經(jīng)被公認為是一種安全的腫瘤治療方法,而免疫檢查點阻斷(Immune Checkpoint Blockade,ICB)就是一種新型的免疫治療方法[1]。免疫檢查點是一類可以起激活或抑制作用的分子,腫瘤細胞表面的配體與免疫細胞表面的受體進行結(jié)合時,腫瘤細胞會通過免疫檢查點傳遞抑制信號給免疫細胞,使免疫細胞失去活性,從而形成免疫逃逸[2]。ICB就是對腫瘤細胞傳遞出的免疫檢查點進行阻斷,使免疫細胞恢復活性,利用自身免疫系統(tǒng)來消除腫瘤細胞。它與傳統(tǒng)的腫瘤治療方法相比,更加容易產(chǎn)生療效,尤其是在中晚期的黑色素瘤中[3-4]。雖然臨床治療中明確了ICB的可行性, 但約有70%以上的患者仍會治療失敗,而未能從中獲益[5]。Ke Chen[6]等人在基于計算機預測ICB應答的研究一文中指出,研究影響ICB治療能否成功的因素,構(gòu)建ICB治療應答的預測模型,如何有效地在ICB治療前進行病例篩選,從而為患者設(shè)計更為適合的個性化治療方案就顯得尤為重要,文中將可預測ICB治療效果的特征分為五大類,其中一類就是轉(zhuǎn)錄組水平RNA-seq特征。比如,Galon J[7]等人使用基因表達譜計算出來的特征來對結(jié)直腸癌的病人進行免疫治療臨床結(jié)果的預測,Pornpimol Charoentong[8]等人使用基因表達譜構(gòu)建了一個對多種癌癥免疫治療結(jié)果進行預測打分的工具。隨著近年來第二代測序技術(shù)的不斷成熟和發(fā)展,以及對基因的研究越來越深入,人們發(fā)現(xiàn)許多疾病的發(fā)展與治療都和基因的表達密切相關(guān)[9],根據(jù)基因表達譜對于腫瘤免疫治療的預測亟待研究。
本文研究病人轉(zhuǎn)錄組水平RNA-seq數(shù)據(jù)對ICB治療黑色素瘤效果的預測作用,引入隨機森林算法來構(gòu)建預測模型。隨機森林算法是一種基于統(tǒng)計學習理論的經(jīng)典機器學習算法,它將bootstrap重抽樣方法和決策樹算法相結(jié)合,并能在構(gòu)建模型的同時對特征的重要性進行評估,具有較好的性能[10-12]。本文對病人的基因表達譜數(shù)據(jù),使用隨機森林構(gòu)建ICB治療預測模型,引入模擬數(shù)據(jù)來對模型進行評估。同時也使用了Logistic回歸和XGBoost方法,來對不同算法構(gòu)建出的模型進行比較。
1? 基于機器學習的免疫檢查點阻斷治療預測方法
本文對免疫檢查點阻斷治療分類預測的整體流程包括特征篩選、特征降維、隨機森林建模和實驗驗證四個部分,如圖1所示。下面對圖中的每一個流程的實現(xiàn)以及實驗數(shù)據(jù)的處理進行詳細的描述。
1.1? 特征基因的篩選
在構(gòu)建預測模型時,選取的特征基因越多,計算量越大。為了降低模型計算的復雜度,同時又保證預測的準確性,對特征基因的篩選起著重要的作用。本研究篩選出與免疫相關(guān)的基因。根據(jù)收集到的文獻,得知免疫治療與人體中與免疫相關(guān)的通路都有著緊密聯(lián)系[13],所以本研究首先對60例病人基因表達譜的20250個基因進行了匹配篩選。從KEGG(Kyoto Encyclopedia of Genes and Genomes)京都基因與基因組百科全書數(shù)據(jù)庫中收集了與免疫相關(guān)的通路,這些通路中共有619個基因。將60例病人基因表達譜中的基因與這619個免疫相關(guān)通路的基因取交集,最后得到了602個共有基因。
1.2? 特征基因的降維
在初步的特征篩選之后,特征基因已經(jīng)從20250個精簡到了602個,但特征數(shù)量仍舊過多。本研究使用R語言中randomForest包中importance()函數(shù)來實現(xiàn)特征基因的降維。隨機森林算法相對于其他機器學習算法的一大優(yōu)勢就在于它可以通過評估所有變量的重要性,從而對特征進行篩選。在建模的過程中,隨機森林算法會為每個特征計算出Mean DecreaseAccuracy準確度平均降低量和MeanDecrease Gini基尼指數(shù)平均降低量兩個值,這兩個值都是對特征重要性的評估指標,本文篩選時主要參考的是MeanDecreaseGini。如果一個樣本有K個分類,假設(shè)樣本的某一個特征a有n個取值,其某一個節(jié)點取到不同樣本的概率為:
基尼指數(shù)表示節(jié)點的純度,基尼指數(shù)越大純度越低。將變量數(shù)據(jù)打亂,基尼指數(shù)變化量的均值可以作為變量的重要程度度量。MeanDecreaseGini通過基尼指數(shù)計算每個變量對分類樹每個節(jié)點上觀測值的異質(zhì)性的影響,從而對變量的重要性進行比較,該值越大表示該變量的重要性越大[14]。本研究通過多次迭代來對特征基因進行篩選:首先使用待篩選的基因,在R語言中構(gòu)建隨機森林分類模型;接著使用importance()函數(shù)來查看每個特征的MeanDecreaseGini,并根據(jù)MeanDecreaseGini進行排序,篩選出排名靠前的特征來再次建模。重復以上步驟,我們最終從602個特征基因最終篩選出16個來當作特征基因。
1.3? 基于隨機森林的ICB預測方法
隨機森林是一個監(jiān)督模型,由若干棵決策樹組成,每一棵決策樹的葉子節(jié)點都是具有同一種類別的數(shù)據(jù)。對每一顆輸入待分類的樣本數(shù)據(jù),決策樹都會根據(jù)內(nèi)部選擇的最優(yōu)的分裂節(jié)點來生成一條從根節(jié)點到葉子節(jié)點的唯一路徑,該葉子節(jié)點就是這個待分類樣本的分類結(jié)果[15-16]。隨機森林算法構(gòu)建模型的流程如圖2所示。
整個建模過程是在R語言(3.4.4)中使用randomForest包來實現(xiàn)的,具體的步驟如下:首先將病人數(shù)據(jù)按照80%做訓練集,20%做測試集的比例隨機抽取樣本分成兩組,每組數(shù)據(jù)包括每個樣本篩選出的16個特征基因和每個樣本的分類。接著將隨機森林算法設(shè)置為構(gòu)建分類器模式,使用訓練集進行模型的構(gòu)建。然后使用訓練出的預測模型,來對測試集進行預測,并統(tǒng)計每個樣本分類的概率以及分類結(jié)果。最后使用預測出的分類概率來繪制ROC便于模型之間的比較,使用預測分類正確的樣本占訓練集樣本總數(shù)的比例,計算模型預測的準確率。
1.4? 實驗數(shù)據(jù)處理
本研究對象包括兩組共60例病人數(shù)據(jù),他們由互不相關(guān)且相互獨立的病人組成,這些數(shù)據(jù)均是從GEO(Gene Expression Omnibus)公共數(shù)據(jù)庫中收集的公共數(shù)據(jù),數(shù)據(jù)全部經(jīng)過數(shù)據(jù)庫審核,合法、準確且可以直接使用。這60例病人數(shù)據(jù),分別從GSE91061(33例)和GSE78220(27例)兩組研究中收集。其中,GSE91061包括23例PD(progressive disease)無療效病人和10例PRCR(partial response、complete response)有療效病人;GSE78220包括12例PD病人和15例PRCR有療效病人。病人數(shù)據(jù)包括病人ICB治療前的黑色素瘤腫瘤組織轉(zhuǎn)錄組RNA-seq測序數(shù)據(jù),以及這60例病人接受ICB治療后的療效情況,共計有35例PD無療效病人與25例PRCR有明顯療效病人兩種分類[5,17]。
考慮到真實的病人數(shù)據(jù)樣本量較小,為了評估本研究的準確性,本研究還額外從癌癥和腫瘤基因圖譜(The Cancer Genome Atlas,TCGA)數(shù)據(jù)庫中收集了相似的黑色素瘤腫瘤組織的轉(zhuǎn)錄組RNA-seq測序數(shù)據(jù),經(jīng)過質(zhì)控篩選后共收集到471例病人樣本,獲得了處理后的病人基因表達譜[18]。將GEO數(shù)據(jù)庫收集到的兩組以及TCGA數(shù)據(jù)庫收集到的一組數(shù)據(jù)的基因表達譜進行了整合,三組數(shù)據(jù)共有的基因數(shù)量為20250個。因為這些病人并沒有接受到ICB治療,所以我們需要對這些病人數(shù)據(jù)進行模擬響應變量,模擬出他們經(jīng)過治療后是否有療效。本研究模擬響應變量分為三步:
(1)根據(jù)已知響應變量的數(shù)據(jù)計算聚類中? ?心[19,20]。整理60例已知治療結(jié)果的病人數(shù)據(jù),根據(jù)病人基因表達譜FPKM(Fragments Per Kilobase Million)值,分別求出兩類病人每個基因FPKM值的平均值,將每類病人所有基因的FPKM值平均值構(gòu)成的高維向量,視為該類別的聚類中心。
(2)計算模擬數(shù)據(jù)的歐式距離。將收集的471例病人的基因表達譜文件進行整理,根據(jù)(1)中算出的聚類中心,使用如下公式分別計算每個病人與PD和PRCR兩種類型的歐式距離:
(3)模擬響應變量。比較471個病人與PD和PRCR兩種類型聚類中心的歐式距離,將該病人的響應變量模擬為歐式距離更小的類型。最終471個病人的響應變量模擬為363個PD(約77%)和108個PRCR(約23%),與實際治療中ICB治療大部分病人沒有療效的情況相吻合。
2? 實驗驗證與結(jié)果分析
2.1? 實驗驗證方法
2.2? 實驗結(jié)果與分析
2.2.1? 真實數(shù)據(jù)結(jié)果
為了驗證本文模型的有效性,將隨機森林模型與將Logistic回歸分析和XGBoost兩種方法的分類效果進行比較。隨機將60例病人樣本分為48個訓練集樣本和12個測試機樣本,分別使用隨機森林、Logistic回歸分析和XGBoost三種方法進行建模,重復上述方法五次,并對相同分組得到的三種模型,進行準確率和ROC曲線曲線下面積比較。三種模型的準確率的比較如表1所示,三種模型的ROC曲線及AUC的比較如圖3中(a)(b)(c)(d)(e)所示,隨機森林算法五次建模的ROC及平均的AUC如圖3中(f) 所示。從圖3和表1中可以發(fā)現(xiàn),隨機森林算法在
本研究中明顯優(yōu)于Logistic回歸和XGBoost方法,隨機森林算法構(gòu)建出的模型預測平均準確率達到84.9%,優(yōu)于XGBoost的61%和Logistic回歸的60%;隨機森林模型的平均ROC曲線下面積也達到0.914,明顯大于XGBoost和Logistic回歸。
2.2.2? 模擬數(shù)據(jù)結(jié)果
為了測試本研究中隨機森林模型的準確度,同時對額外收集到的471個模擬數(shù)據(jù)做了三種模型的構(gòu)建與比較,構(gòu)建模型時仍是使用篩選出的16個特征基因作為特征。三種模型的準確率比較如表2所示,三種模型的ROC曲線及AUC的比較如圖4中(a)~(e)所示,隨機森林算法五次建模的ROC及平均的AUC如圖4中(f)所示??梢悦黠@看出,隨著樣本量的增加,三種模型準確率之間的差距也在逐漸縮小,但是隨機森林模型的預測準確率仍是略高于XGBoost和Logistic回歸,達到了93.2%;同時三種模型的ROC曲線也十分接近,但是隨機森林模型的ROC曲線下面積也是略大于其他兩種模型,平均AUC達到了0.985,也從側(cè)面表明了數(shù)據(jù)量越大,模型會越準確。
3? 總結(jié)與展望
本文創(chuàng)新的使用病人的基因表達譜,基于機器學習理論中的隨機森林算法,實現(xiàn)對ICB治療的療效預測。首先,提出了基于機器學習理論的隨機森林算法篩選特征的方法與模型構(gòu)建的過程,同時通過文獻調(diào)研,縮小了待選基因的范圍;其次,為了彌補數(shù)據(jù)的不足,引入了相似的病人數(shù)據(jù),并根據(jù)與聚類中心之間的歐式距離,對響應變量進行了模擬;最后,使用了隨機森林、Logistic回歸和XGBoost三種方法分別對篩選出的特征基因進行訓練,并通過準確率和ROC曲線來對三種模型在真實數(shù)據(jù)和模擬數(shù)據(jù)測試集上的預測效果進行比較和評估,驗證了本文構(gòu)建隨機森林模型的準確性。ICB治療的預測研究有助于醫(yī)生在為病人設(shè)計治療方法時,可以選擇更為有效的治療手段,也為病人的康復增加一份希望。
在研究的過程中,本人嘗試使用更少的特征基因來對研究數(shù)據(jù)進行訓練并預測,由于本研究的訓練樣本較少,繼續(xù)減少特征數(shù)量反而會使模型的準確率下降。因為ICB治療還屬于比較新型的治療方式,國內(nèi)外的研究中并未有過多的數(shù)據(jù)和相關(guān)的預測研究,本研究只收集到了兩組病人數(shù)據(jù)。在其中一組病人數(shù)據(jù)中發(fā)現(xiàn)除了本文中提及的PD和PRCR兩類治療結(jié)果外,還有第三類治療結(jié)果SD(stable disease),但是因為數(shù)據(jù)量過少且另一組病人數(shù)據(jù)中并未提及此類,所以本文沒有對SD這類病人進行研究。隨著ICB治療研究的不斷深入和不斷推廣,會有越來越多的病人數(shù)據(jù)可供研究,在未來的研究中,我們將收集除了基因以外的特征加入模型之中,繼續(xù)對三種治療結(jié)果的分類預測進行? 研究。
參考文獻
[1] Stambrook PJ, Maher J, Farzaneh F. Cancer Immunotherapy: Whence and Whither[J]. Mol Cancer Res. 2017 Jun; 15(6): 635-650.
[2] 盧伸, 蘇丹. 免疫檢查點阻斷用于腫瘤治療的研究進展[J]. 實用腫瘤雜志. 2016; 31(1): 19-23.
[3] Topalian SL, et al. Mechanism-driven biomarkers to guide immune checkpoint blockade in cancer therapy[J]. Nat.Rev. Cancer. 2016 May; 16(5): 275-87.
[4] Liu XS, Mardis ER.Applications of immunogenomics to cancer[J]. Cell. 2017 Feb 9; 168(4): 600-612.
[5] Hugo W, Zaretsky JM, et al. Genomic and Transcriptomic Features of Response to Anti-PD-1 Therapy in Metastatic Melanoma[J]. Cell. 2016 Mar 24; 165(1): 35-44.
Liu Q, et al. Towards In Silico Prediction of the Immune- Checkpoint Blockade Response.[J]. Trends Pharmacol Sci. 2017 Dec; 38(12): 1041-1051.
Galon J, et al. Type, density, and location of immune cells within human colorectal tumors predict clinical outcome.[J]. Science. 2006 Sep 29; 313(5795): 1960-4.
Charoentong P, et al. Pan-cancer Immunogenomic Analyses Reveal Genotype-Immunophenotype Relationships and Predictors of Response to Checkpoint Blockade. Cell Rep. 2017 Jan 3; 18(1): 248-262.
Cogdill AP, Andrews MC, Wargo JA. Hallmarks of response to immune checkpoint blockade[J]. Br J Cancer. 2017 Jun 27; 117(1): 1-7.
李慧, 李正, 佘堃. 一種基于綜合不放回抽樣的隨機森林算法改進[J]. 計算機工程與科學. 2015;7
全雪峰. 基于奇異熵和隨機森林的人臉識別[J]. 軟件, 2016, 37(02): 35-38
蘇志同, 汪武珺. 基于隨機森林的煅燒工藝參數(shù)的研究和分析[J]. 軟件, 2018, 39(4): 148-150
Li Y, et al. A Mini-Review for Cancer Immunotherapy: Molecular Understanding of PD-1/PD-L1 Pathway Translational Blockade of Immune Checkpoints[J]. Int J Mol Sci. 2016 Jul 18; 17(7). pii: E1151.
董師師, 黃哲學. 隨機森林理論淺析[J]. 集成技術(shù). 2013. 1; 2(1): 1-7.
李欣海. 隨機森林模型在分類與回歸分析中的應用[J]. 應用昆蟲學報. 2013, 50(4): 1190-1197.
李玲, 李晉宏. 基于隨機森林修正的加權(quán)二部圖推薦算法[J]. 軟件, 2018, 39(1): 110-115.
Riaz N, et al. Tumor and Microenvironment Evolution during Immunotherapy with Nivolumab[J]. Cell. 2017 Nov 2; 171(4): 934-949.e16.
Tomczak K, Czerwińska P, Wiznerowicz M. The Cancer Genome Atlas (TCGA): an immeasurable source of knowledge[J]. Contemp Oncol (Pozn). 2015; 19(1A): A68-77.
吳榮強, 李晉宏. 基于聚類分析的鋁電解槽陽極壓降的分類[J]. 軟件, 2018, 39(3): 166-169.
蒲杰方, 盧熒玲. 基于聚類算法和神經(jīng)網(wǎng)絡(luò)的客戶分類模型構(gòu)建[J]. 軟件, 2018, 39(4): 130-136.