摘要:目前基于建模的抗癌藥物敏感性預測研究較多,但這些模型大多使用傳統(tǒng)單任務學習模型。這種模型在解決復雜問題時需將問題拆分成單個子問題,忽略了各個子問題之間存在的關聯,因而模型精度會受到影響。大多數藥物敏感性預測模型僅使用了基因表達數據,忽略了基因突變、甲基化以及拷貝數等數據對藥物敏感性預測的影響。結合上述數據,并考慮到不同藥物之間可能存在的相似性,利用多任務學習方法共享任務之間的信息,對抗癌藥物敏感性進行預測,預測的平均精度達到56%以上,較普通的Lasso模型提高了35%左右。同時,針對每種藥物找出一些敏感的生物標志物,這些生物標志物可為癌癥治療提供指導。
關鍵詞:癌癥;藥物敏感性;個性化醫(yī)療;多任務學習;預測
DOI: 10. 11907/rjdk.191337
開放科學(資源服務)標識碼(OSID):
中圖分類號:TP319
文獻標識碼:A
文章編號:1672-7800(2020)001-0207-04
0 引言
在對癌癥患者治療方法上,傳統(tǒng)的治療方式大多采取一刀切的治療策略。但大量臨床實踐表明,這種方法存在缺陷。因為即便是患有同一癌癥類型的不同病人,由于病入本身原因,對于同一種藥物或治療方法所達到的效果都會有所不同[1]。因此,如何提高藥物療效成為廣大醫(yī)療工作者亟需解決的問題。而針對某個具體病人的個性化醫(yī)療受到專家學者的廣泛關注[2-4]。個性化醫(yī)療的關鍵是針對病人患病的某個重要基因進行醫(yī)治[5-6]。在臨床治療中,為了研究出適合特定癌癥病人的靶向療法需要大量臨床試驗,但這種試驗成本昂貴,局限性太高,因而很難滿足醫(yī)療需求。隨著生物信息學的快速發(fā)展,產生了大量的基因數據,因而越來越多的專家學者開始利用基因數據信息建立模型進行藥物敏感性預測[7-12]。
基于基因組學數據在藥物敏感性預測方面取得了不菲的成果。基于NCI-60數據,Riddick等[13]提出利用隨機森林算法的回歸模型預測藥物敏感性;基于CCP數據集,Menden等[14]建立了以神經網絡為基礎的預測模型;基于GDSC數據集,Nanne Aben等[15]運用兩階段法將基因表達、基因突變、甲基化、拷貝數等數據結合起來預測藥物的敏感性。
除了根據基因組信息預測藥物敏感性外,Shivakumar等[16]提出了利用藥物之間的結構相似性預測未知藥物敏感性的方法。James T Webber、Swati Kaushik等[17]提出利用多維網絡模型集成腫瘤基因數據和細胞系數據,在基因層面上研究不同疾病對于不同藥物的反應。這些方法不僅促進了癌癥藥物基因組學的發(fā)展,也為預測藥物敏感性提供了新的思路。
藥物敏感性預測研究常用方法是機器學習,但這些研究大多使用單任務學習模型,對復雜問題分析只能先將大問題分解成獨立的子問題,然后對每個子問題分別進行學習,最后對子問題學習結果進行組合得出復雜問題的結果,這種分析方式忽略了各個子問題之間可能存在的關聯,因而對預測精度有所影響。Han Yuan等[18]提出利用多任務學習模型方法預測藥物敏感性。這種方法將每一種藥物的敏感性預測都視為一個任務,相比于傳統(tǒng)的單任務學習能取得更好的效果,但這個方法沒有考慮到各藥物之間可能存在的相似性。本文在運用多任務學習模型基礎上,結合基因表達、基因突變、甲基化、拷貝數等4種數據,同時考慮不同藥物之間由于分子結構、蛋白質序列等排列方式可能存在一定的相似性,綜合這些因素進行藥物敏感性預測,提高了預測精度。希望根據得到的結果篩選出每個細胞系中對藥物敏感性最高的幾種生物標志物,為病人的臨床診斷用藥提供指導。
1 數據來源
本文所用到的數據均來自CDSC( Genomics of DrugSensitivity in Cancer)數據庫的最新數據,其中包括1001個人類癌癥細胞系樣本所對應的基因表達、基因突變、甲基化和拷貝數信息,以及265種藥物在991個細胞系上的反應值數據。本文所用的敏感性衡量指標為AUC(藥物劑量曲線下方的面積),由定義可以看出,AUC越小,藥物敏感性就越高,反之則越低。本研究所需要的數據可在https://www.cancerrxgene.org/downloads中下載得到。
2 多任務學習算法
2.1 模型選擇
研究中所選取的藥物敏感性數據描述的是265種藥物在991個細胞系上的敏感性表達值。其中對每一種藥物敏感性預測都可看作是一個預測任務,如果使用傳統(tǒng)意義上的單任務學習模型,可能會忽略各種藥物之間存在的關系,但直接將所有藥物的數據放到一起,學習一個回歸函數進行預測,模型的精度會受到影響。而多任務學習則更看重任務之間的聯系,通過聯合學習,同時對265個任務學習不同的回歸函數,既考慮到任務之間的差別,又考慮到任務之間的聯系,可有效提高預測精度。
2.2 模型簡介
多任務學習定義:給定m個學習任務,其中所有或一部分任務是相關但并不完全一樣的,多任務學習目標是通過使用這m個任務中包含的知識幫助提升各個任務的性能[19]。
單任務學習在解決一些復雜問題時,需要將整個問題拆分成一個個獨立的子問題,這樣會影響結果精度。而多任務學習可以在學習過程中共享所學習到的信息,相關聯的多任務學習比單任務學習能取得更好的泛化效果。
2.3 基于圖結構編碼的多任務學習模型
多任務學習模型很多,在參考Jiayu zhou[20]等編著的MLASAR后,使用其中基于圖結構編碼的多任務學習模型,其核心公式如下:
2.4 模型建立
2.4.1 數據處理
(1)不同藥物之間因為其分子結構、蛋白質序列等的排列方式可能存在一定的相似性,因而使用RDKit計算各個藥物之間的相似性。
RDKit是一款開源的化學信息學與機器學習工具包,可在:https: //github.com/rdkit/rdkit/blob/m aster/D ocs/B ook/ln-stall.md中下載。它可通過計算各藥物之間的分子指紋(Canonical Smile)生成各藥物之間的相似性數據。在Pub-chem數據庫查找,最終找到223種藥物的分子指紋,根據這些分子指紋通過RDkit生成一個223x223的相似性矩陣(對角線數值均為1)。
(2)給這個相似性矩陣設定一個閾值0.85,當兩藥物之間的相似性高于0.85時(對角線上數值減1),就代表兩個藥物之間存在相似性,用l表示,否則用0表示。對1的數量進行計數,有多少個1就有多少條邊。假設共有b條邊,則R為223xb的矩陣,若對于某條邊i,e(i)和ev(i)分別代表1和-1,則證明第x個和第y個藥物之間存在相似性。
(3)本研究考慮到基因表達、基因突變、甲基化以及拷貝數等數據的互補性,把它們當作特征矩陣x一同輸入模型中。先篩選找到它們共有的癌癥細胞系樣本,再對這幾項數據進行合并。合并完的數據共有928個細胞系樣本,包含了18 330個基因數據,合并完的數據就是多任務學習模型里的特征矩陣X。在GDSC數據庫中下載的藥物敏感性數據中,先篩選出具有分子指紋的223種藥物,每種藥物在某些細胞系樣本上或多或少都存在缺失值。將上述4項數據與藥物敏感性數據合并之后,針對每一種藥物分別刪掉有缺失值所在的一行數據(對每一種藥物的預測都看成是一個任務),因而得到223個不同矩陣。
(4)將整理好的數據輸入模型中。該模型共有223個預測藥物敏感性任務。對每個任務其特征矩陣X的維度都是不一樣的,而響應變量Y則是對應的223種不同藥物的反應值,經過模型計算會得到這223種藥物的敏感性預測值y,將y與Y利用斯皮爾曼等級相關系數進行精度檢驗。
2.4.2 模型精度檢驗
本文以基因表達、基因突變、甲基化、拷貝數和藥物反應值等數據結合藥物之間的相似性建立多任務學習模型,預測藥物的敏感性,使用斯皮爾曼等級相關系數衡量最后的預測精度。
在統(tǒng)計學中,斯皮爾曼等級相關系數用來估計兩個變量X、Y之間的相關性。假設兩個隨機變量分別為X、Y(也可看作兩個集合),它們的元素個數均為N,兩隨機變量X、Y之間的斯皮爾曼等級相關系數可由x、y或d計算得到,計算方式如下:
由排行差分集合d計算:
p的取值范圍在-1-1之間,當O
3 模型結果
3.1 多任務學習模型預測結果
考慮到上游基因數據和下游基因數據之間存在的互補性以及待測藥物之間可能存在的相似性,運用多任務學習方法擬合數據,最終可得到每種藥物反應的預測值。在模型中運用corr函數中的spearman相關系數計算預測值與真實值之間的相關系數作為該模型的預測準確率,最終得到223種藥物敏感性預測的平均精度為0.56。所有藥物中有71%的藥物預測值與真實值的相關系數都超過了0.5,其中有7種藥物的預測精度超過了0.8,而對Trametinib藥物敏感性的預測精度達到了0.85。部分藥物模型預測結果如圖1所示,全部藥物的預測精度分布如圖2所示。另外,針對每種藥物按照重要性對前10種生物標志物進行排序,部分結果見表1。
3.2 與Lasso模型比較
Lasso是一種用來估計稀疏線性模型的方法,廣泛應用于回歸模型中,尤其是針對一些高維數據,它可以有效降維。其原理是基于懲罰方法對高維數據進行變量選擇,通過對原本系數進行壓縮,將原本很小的系數直接壓縮至0,從而將這部分系數所對應的變量視為非顯著性變量,將不顯著的變量直接舍棄,因而對高維數據的回歸預測效果較好。
考慮到基因特征過多(18 330個),故采用普通的Lasso模型對數據進行擬合。為防止過擬合,采用樣本內部的10折交叉驗證,從而得到對應的預測值。對部分藥物的最終預測結果如圖3所示。
從圖4可以看出,用Lasso模型對藥物的敏感性進行預測時,有7種藥物的精度都超過了0.6,其中對RDEA119的預測精度達到了0.686。但是,同樣從0.0到0.6之間每個區(qū)間的精度分布都比較均勻,甚至還有不少藥物的預測精度為0,這導致lasso模型的平均預測精度只有0.21左右。
如圖5所示,不論是平均預測精度還是對單個藥物的預測精度,多任務學習模型都明顯優(yōu)于普通lasso模型。
4 結語
從預測結果看,多任務學習模型的效果明顯優(yōu)于普通Lasso模型,原因有二:①在對藥物敏感性預測過程中,本文結合了基因表達、甲基化、基因突變、拷貝數這4項數據,利用了這些數據之間的互補性,提升了預測精度;②本研究在對藥物敏感性進行預測過程中,考慮了不同藥物之間的相似性對精度的影響,并運用多任務學習方法充分利用了這一點,使得模型精度有所提升。但本文還存在一定的局限性,如只是簡單地將這幾項數據合并在一起,沒有考慮到它們本身存在的層次性。如何將這點整合到模型建立過程中,提高模型預測能力,是今后的研究方向。
參考文獻:
[1] 喬蘇莉.基于隨機森林算法的抗癌藥物敏感性預測研究[D].上海:上海師范大學,2017.
[2]CUI J, CHEN Y,CHOU W C,et al.An integrated transcriptomic andcomputational analysis for biomarker identification in gastric cancer[J]. Nucleic Acids Res, 2011, 39(4): 1197-2070.
[3]XIE Y,XIAO G,COOMBES K R,et al.Robust gene expression sig-nature from formalin-fixed paraffin-embedded samples predicts prog- nosis of non-small-cell lung cancer patients [J]. Clin Cancer Res,2011, 17( 17) : 5705-5714.
[4]XIAO C, MA S. MINNA J. et al. Adaptive prediction model in pro-spective molecular signature-based clinical studies [J]. Clin CancerRes , 2014, 20(3) : 531-539.
[5] 樊晶晶 .識別基因相互作用并將其應用于藥物的敏感性預測 [ D ] .石家莊:河北科技大學 , 2018.
[6] 王艷.藥物敏感性試驗中的亞組統(tǒng)計分析 [D].上海 :上海師范大學 . 2018.
[7] SHOEMAKER RH. The NC160 human tumour cell line anticancerdrug screen[J]. Nat Rev Cancer, 2006 , 6( 10) : 813-823.
[8]KUTALIK Z. BECKMANN JS, BERGMANN S. A modular approachfor integrative analysis of Iarge-scale gene-expression and drug-re-sponse data[J]. Nat Biotechnol, 2008 , 26( 5) : 531-539.
[9]HEISER LM, JWANG N. TALCOTT CL, et al. Integrated analysis ofbreast cancer cell lines reveals unique signaling pathways [J]. Ce-nome Biol. 2009. 10( 3) : 1501-1521.
[10]SIROTA M. DUDLEY JT. KIM J, et al.Discovery and preclinical val-idation of drug indications using compendia of public gene expres-sion data[J]. Sci Transl Med, 2011 , 3( 102) : 561-569.
[11]BARRETINA J, CAPONIGRO G. STRANSKY N , et al. The cancercell line encyclopedia enables predictive modelling of anticancerdrug sensitivity[J]. Nature , 2012, 492( 7428) : 290-297.
[12] CARNETT MJ. EDELMAN EJ. HEIDORN SJ, et al. Systematicidentification of genomic markers of drug sensitivity in cancer cells[J]. Nature , 2012, 483( 7391) : 570-587.
[13]RIDDICK G. SONG H, AHN S, et al. Predicting in vitro drug sensi-tivity using random forests [Jl. Bioinformatics, 2011, 27 (2)220-224.
[14] MENDEN M P, IORIO F. GARNETT M, et al. Machine learningprediction of cancer cell sensitivity to drugs based on genomic andchemical propenies[J]. PLoS One , 2013 , 8(4) : 613-638.
[15]NANNE ABEN, DAINEL J VIS. Tandem: a two-stage approach t。maximize interpretability of drug response models based on multiplemolecular data types[J] . Bioinformatics , 2016( 32) : 413-420.
[16] SHIVAKUMAR P, KRAUTHAMMER M. Structural similarity as-sessment for drug sensitivity prediction in cancer[ J] . BMC Bioinfor-matics. 2009. 10(9) : 17-26.
[17]WEBBER. Integration of tumor genomic data with cell lines usingmulti-dimensional network modules improves cancer pharmacoge-nomics[J]. Cell Systems, 2018 , 7( 5) : 526-536.
[18]YUAN H , PASKOV I. PASKOV H, et al. Multitask learning improvesprediction of cancer drug sensitivity [Jl. Scientific Reports, 2016( 6) : 316-319.
[19]ZHANG Y, YANG Q. An overview of multi-task learning[J]. Na-tional Science Revie,v . 2018. 5( 1) : 34-47.
[20]ZHOU J. CHEN J. YE J. MALSAR : multi-task learning via structur-al regularization[ M ] . Arizona State University , 2012.
[21]MYERS J L. WELL A D. Research design & statistical analysis [J].Japanese Journal of National Medical Services, 2013 (55)1410-1421.
[22]SKILLINCS J H. Distribution-free statistical methods [J]. Techno-metrics, 1983, 25(2) :208-209.
作者簡介:唐益翔(1995-),男,上海理工大學管理學院碩士研究生,研究方向為系統(tǒng)生物學。