顧兆偉,張立忠,劉曉峰,譚 先
(1.長(zhǎng)春中醫(yī)藥大學(xué)附屬第三臨床醫(yī)院 腦病康復(fù)科,長(zhǎng)春 130000;2.長(zhǎng)春市朝陽(yáng)區(qū)清和社區(qū)衛(wèi)生服務(wù)中心,長(zhǎng)春 130000;3.空軍杭州特勤療養(yǎng)中心 康復(fù)理療科,杭州 310000;4.東北師范大學(xué) 信息科學(xué)與技術(shù)學(xué)院,長(zhǎng)春 130000)
在高通量測(cè)序等生物技術(shù)的發(fā)展下,精準(zhǔn)醫(yī)療模式已開(kāi)始為臨床診療提供新的方法與技術(shù)。精準(zhǔn)醫(yī)療是指與患者分子生物病理學(xué)特征相匹配的個(gè)體化診斷和治療策略[1]。在對(duì)癌癥患者的個(gè)體化診斷和治療過(guò)程中,精準(zhǔn)醫(yī)療模式希望通過(guò)患者的基因型與基因表達(dá)等個(gè)體化數(shù)據(jù)為治療方案提供指導(dǎo)。礙于有限的數(shù)據(jù)及治療方法,這項(xiàng)工作仍充滿(mǎn)爭(zhēng)議與挑戰(zhàn)[2-3]。
癌癥藥物治療是目前治療癌癥的主要手段之一。通過(guò)將患者的個(gè)體數(shù)據(jù)結(jié)合系統(tǒng)生物學(xué)的研究成果,實(shí)現(xiàn)對(duì)不同抗癌藥物治療效果的精準(zhǔn)預(yù)測(cè)是癌癥精準(zhǔn)醫(yī)療的發(fā)展趨勢(shì)。基于功能性實(shí)驗(yàn)的一些實(shí)驗(yàn)方法存在耗時(shí)長(zhǎng)(如類(lèi)器官培養(yǎng)法、循環(huán)腫瘤細(xì)胞增殖法),成本昂貴和對(duì)實(shí)驗(yàn)設(shè)備要求高等局限性(如四甲基偶氮唑鹽比色法)[4],而使用生物信息學(xué)中基于計(jì)算機(jī)算法的計(jì)算方法可以在僅獲取部分患者基因組信息的前提下,為問(wèn)題提供新的實(shí)驗(yàn)方法和研究思路。目前已有大量的研究成果證實(shí)了使用計(jì)算方法預(yù)測(cè)抗癌藥物作用效果的可行性。
目前研究的數(shù)據(jù)源多數(shù)是使用克隆培養(yǎng)的癌癥細(xì)胞系(Cancer cell line)數(shù)據(jù)。癌癥細(xì)胞系有著無(wú)限繁殖、易于測(cè)序的特點(diǎn)。除了在醫(yī)學(xué)研究試驗(yàn)中有著廣泛應(yīng)用,其多組學(xué)概況和細(xì)胞增殖實(shí)驗(yàn)數(shù)據(jù)也被計(jì)算實(shí)驗(yàn)所青睞。在上世紀(jì)90年代,由美國(guó)國(guó)家癌癥研究所(National Cancer Institute)發(fā)表的NCI-60匯總了多種抗癌藥物對(duì)60種癌癥細(xì)胞系的作用效果,并在多個(gè)計(jì)算方法實(shí)驗(yàn)中驗(yàn)證了使用癌癥細(xì)胞系概況數(shù)據(jù)預(yù)測(cè)抗癌藥物作用的可行性[5-7]。而近些年發(fā)表并不斷更新的CCLE(Cancer Cell Line Encyclopedia,癌細(xì)胞系百科全書(shū))[8]、GDSC(Genomics of Drug Sensitivity in Cancer,癌癥藥物敏感性基因組學(xué))[9]和CTRP(Cancer Therapeutics Response Portal,癌癥治療反應(yīng)門(mén)戶(hù)網(wǎng))[10]等為計(jì)算方法實(shí)驗(yàn)提供了更為豐富有效的素材。CCLE匯集了多個(gè)細(xì)胞系對(duì)24種抗癌藥物的作用,而GDSC匯集了200余種藥物對(duì)1 001個(gè)細(xì)胞系的作用效果,并且在兩個(gè)數(shù)據(jù)源中也包含了癌癥細(xì)胞系的基因表達(dá)、編碼基因突變、甲基化和拷貝數(shù)(變異)等數(shù)據(jù)。CTRP也是以小分子藥物和探針對(duì)細(xì)胞系影響為研究對(duì)象的數(shù)據(jù)庫(kù),相較于前兩者,CTRP更加重視藥物和靶標(biāo)的關(guān)系而非細(xì)胞系本身的概況。
除細(xì)胞系數(shù)據(jù)以外,根據(jù)研究者研究問(wèn)題的不同角度,有一些成熟的數(shù)據(jù)庫(kù)可以應(yīng)用在研究之中。在研究癌癥問(wèn)題常用的基因表達(dá)關(guān)系數(shù)據(jù)中,由美國(guó)國(guó)立生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)發(fā)布的GEO(Gene Expression Omnibus)數(shù)據(jù)庫(kù)[11]常被使用。而在分析單點(diǎn)突變時(shí),單核苷酸多態(tài)數(shù)據(jù)庫(kù)dbSNP[12]也常用于作為背景數(shù)據(jù)庫(kù)之一。研究之中常見(jiàn)的數(shù)據(jù)源還有生物通路如KEGG數(shù)據(jù)庫(kù)[13]和蛋白質(zhì)組學(xué)相關(guān)的,如包含蛋白質(zhì)互作(Protein-protein interaction)關(guān)系的數(shù)據(jù)庫(kù)STRING[14]、BioGRID[15]等。在研究非細(xì)胞系問(wèn)題上,以臨床病人樣本為核心的TCGA(The Cancer Genome Atlas)數(shù)據(jù)庫(kù)包含了多樣本、多分型和多角度的相關(guān)數(shù)據(jù),在本問(wèn)題中也常被使用。
區(qū)別于臨床研究中常用的數(shù)學(xué)統(tǒng)計(jì)方法(如表達(dá)相關(guān)性研究[16]),計(jì)算方法(Computational method)更加強(qiáng)調(diào)整體性,有著明確的步驟與輸入輸出(見(jiàn)圖1)。計(jì)算方法對(duì)抗癌藥物作用效果的預(yù)測(cè)目的是提供一個(gè)臨床前研究模型或系統(tǒng),一般通過(guò)使用患者(或細(xì)胞系)的基因型數(shù)據(jù)作為模型的輸入,以該模型或系統(tǒng)根據(jù)患者(或細(xì)胞系)基因型所預(yù)測(cè)出來(lái)的單種或多種藥物敏感性作為輸出。根據(jù)模型所基于的不同算法類(lèi)別,可分為三類(lèi)。
圖1 計(jì)算方法的研究流程Fig.1 Research flow of calculation method
在生物的生命活動(dòng)機(jī)制中,網(wǎng)絡(luò)這一概念廣泛存在。如蛋白質(zhì)互作網(wǎng)絡(luò)、基因調(diào)控網(wǎng)絡(luò)(Gene regulatory network),生物通路和共表達(dá)網(wǎng)絡(luò)(Co-expression network)等。在研究癌癥問(wèn)題時(shí),將生物數(shù)據(jù)以網(wǎng)絡(luò)的方式建??梢愿玫孛枋龌颊呋颉⒌鞍组g的關(guān)系,并應(yīng)用適用于網(wǎng)絡(luò)結(jié)構(gòu)的算法進(jìn)行分析從而實(shí)現(xiàn)預(yù)測(cè)對(duì)抗癌藥物預(yù)測(cè)的功能。
在目前已有的研究成果中,多是將癌癥細(xì)胞系與藥物構(gòu)建成異質(zhì)性網(wǎng)絡(luò)再結(jié)合多組學(xué)數(shù)據(jù)進(jìn)行分析。Wei[17]等觀察到具有相似基因型的細(xì)胞系和結(jié)構(gòu)相似的藥物間的作用關(guān)系存在高度關(guān)聯(lián),以此為依據(jù)構(gòu)建了一個(gè)通過(guò)皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient)來(lái)表示細(xì)胞系間關(guān)系的混合網(wǎng)絡(luò)模型。Zhang[18]等根據(jù)藥物和細(xì)胞系的敏感與抵抗關(guān)系構(gòu)建異質(zhì)性網(wǎng)絡(luò),再將網(wǎng)絡(luò)關(guān)聯(lián)上基因表達(dá)、藥物化學(xué)結(jié)構(gòu)相似度等信息,然后在網(wǎng)絡(luò)上執(zhí)行信息流算法(Information flow-based algorithm),求出原始數(shù)據(jù)中沒(méi)有關(guān)聯(lián)的藥物與細(xì)胞系間的打分。Yang[19]等通過(guò)將基因組數(shù)據(jù)整合蛋白質(zhì)互作網(wǎng)絡(luò)和細(xì)胞系的功能注釋?zhuān)_(kāi)發(fā)了一個(gè)反應(yīng)網(wǎng)絡(luò)模型來(lái)預(yù)測(cè)藥物反應(yīng)的工具。Stanfield[20]等提出了一個(gè)將基因根據(jù)蛋白質(zhì)互作網(wǎng)絡(luò)相連,再將癌癥細(xì)胞系數(shù)據(jù)和基因相連建成異質(zhì)性網(wǎng)絡(luò)的方法。以上均是構(gòu)建異質(zhì)性網(wǎng)絡(luò)直接預(yù)測(cè)的研究,也有通過(guò)網(wǎng)絡(luò)分析細(xì)胞系數(shù)據(jù)得出輔助結(jié)論的研究成果。Choi[21]等提出了將癌癥基因組學(xué)結(jié)合網(wǎng)絡(luò)動(dòng)力學(xué)的方法進(jìn)行分析,通過(guò)使用吸引子景觀分析(Attractor landscape analysis)方法,以p53的基因調(diào)控網(wǎng)絡(luò)為例揭示了其中可能作為藥物靶點(diǎn)的重要基因。Speyer[22]等分析了CTRP上368個(gè)小分子藥物對(duì)810個(gè)細(xì)胞系上的影響,通過(guò)通路數(shù)據(jù)和與通路數(shù)據(jù)對(duì)應(yīng)的差異依賴(lài)網(wǎng)絡(luò)來(lái)發(fā)現(xiàn)細(xì)胞系對(duì)藥物作用的特異性基因。
相較于其他算法,網(wǎng)絡(luò)分析方法解釋性相對(duì)更強(qiáng),更符合目前對(duì)生物數(shù)據(jù)的認(rèn)知。但是礙于構(gòu)建網(wǎng)絡(luò)的數(shù)據(jù)源并不完備、部分關(guān)系未得到檢測(cè)且已知的偏向于已被大量研究的基因和疾病[23],由此會(huì)使某些潛在驅(qū)動(dòng)基因得不到算法的重視從而影響對(duì)藥物反應(yīng)的預(yù)測(cè)結(jié)果。
機(jī)器學(xué)習(xí)是人工智能領(lǐng)域的重要方法,旨在讓模型從已知的數(shù)據(jù)特征出發(fā),通過(guò)學(xué)習(xí)得到規(guī)律以預(yù)測(cè)未知數(shù)據(jù)。在本問(wèn)題的研究中,應(yīng)用機(jī)器學(xué)習(xí)方法是主要的研究手段,創(chuàng)新點(diǎn)主要集中于提出新的算法、新的特征或降低預(yù)測(cè)所需的數(shù)據(jù)維度。
Riddick[6]等對(duì)NCI-60數(shù)據(jù)使用了隨機(jī)森林(Random forest)算法,為機(jī)器學(xué)習(xí)方法在本問(wèn)題上的應(yīng)用做出了鋪墊。Menden[24]等使用了基因組數(shù)據(jù)和藥物的化學(xué)性質(zhì)共同預(yù)測(cè)藥物敏感性,使用的是人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)模型。Supahvilai[25]等提出一種基于推薦系統(tǒng)(Recommender system)思想的方法,根據(jù)藥物和細(xì)胞系對(duì)潛在“藥物基因組”空間的學(xué)習(xí),預(yù)測(cè)未知細(xì)胞系的抗癌藥物作用。Zhang[26]等在推薦系統(tǒng)的基礎(chǔ)之上,采用混合內(nèi)插加權(quán)協(xié)同過(guò)濾(Hybrid interpolation weighted collaborative filtering)的方法。Ruffalo[27]等使用了多任務(wù)學(xué)習(xí)的方法重構(gòu)了藥物作用網(wǎng)絡(luò),證實(shí)了多任務(wù)學(xué)習(xí)在對(duì)藥物敏感性預(yù)測(cè)上的可行性。Wang[28]等使用了DiffRank、GSVA、PLAGE和Z-score四種方法基于通路的活性進(jìn)行了無(wú)監(jiān)督的學(xué)習(xí),該工作減少了預(yù)測(cè)所需的特征。HUSSAIN[29]等嘗試使用了Apache Spark算法并取得了良好的表現(xiàn)。Knowles[30]等基于貝葉斯非參數(shù)方法提出了一個(gè)多任務(wù)回歸模型。Dhruba[31]等使用了遷移學(xué)習(xí)解決了CCLE和GDSC在數(shù)據(jù)源上的差異問(wèn)題。CHEN[32]等為了融合問(wèn)題中涉及到的多組學(xué)特征,提出了一種雙層選擇的方法。Kim[33]等在樸素貝葉斯(Naive Bayes)模型中使用了蛋白質(zhì)組學(xué)的反相蛋白質(zhì)矩陣作為特征,為多組學(xué)研究提供了參照。以上研究表明機(jī)器學(xué)習(xí)算法在本研究中已取得了一定的成果,但在對(duì)問(wèn)題的定義、特征的選擇等方面仍有一定的研究空間。
深度學(xué)習(xí)技術(shù)是通過(guò)增加人工神經(jīng)網(wǎng)絡(luò)算法中的網(wǎng)絡(luò)層數(shù),從而加強(qiáng)模型的學(xué)習(xí)能力。使用深度學(xué)習(xí)方法,可以讓網(wǎng)絡(luò)以原始數(shù)據(jù)作為訓(xùn)練樣本自提特征以跳過(guò)傳統(tǒng)的特征選擇步驟。近些年深度學(xué)習(xí)技術(shù)在圖像識(shí)別、自然語(yǔ)言處理等領(lǐng)域均取得了較大的突破。而在對(duì)抗癌藥物作用的預(yù)測(cè)中,深度學(xué)習(xí)的各種網(wǎng)絡(luò)結(jié)構(gòu)在被研究者嘗試使用并有了一部分的研究成果。Chiu[34]等使用了體細(xì)胞突變數(shù)據(jù)和基因表達(dá)數(shù)據(jù),通過(guò)使用自編碼器(Autoencoder)進(jìn)行了預(yù)訓(xùn)練,再將預(yù)訓(xùn)練網(wǎng)絡(luò)的中間層結(jié)果作為特征構(gòu)建了預(yù)測(cè)網(wǎng)絡(luò)模型。Chang[35]等將基因突變數(shù)據(jù)結(jié)合藥物分子指紋數(shù)據(jù)使用了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)進(jìn)行預(yù)測(cè)。Su[36]等使用了深度非網(wǎng)絡(luò)模型——深度森林(Deep forest)對(duì)CCLE和GDSC上的數(shù)據(jù)進(jìn)行了預(yù)測(cè)。Xia[37]等為了緩解訓(xùn)練中的梯度消失嘗試了深度殘差網(wǎng)絡(luò)(Deep residual network)。
因?yàn)椴煌ぷ髟跀?shù)據(jù)選擇和測(cè)試算法上有所差異,所以無(wú)法直接評(píng)價(jià)算法間的優(yōu)劣程度,但是從算法指標(biāo)上看深度學(xué)習(xí)確實(shí)在本問(wèn)題上有所突破,如Xia[37]等的工作在NCI-60數(shù)據(jù)集上將預(yù)測(cè)的均方誤差降到了0.015 8;Chang[35]等在工作的比照實(shí)驗(yàn)中使用了SVM算法和隨機(jī)森林算法但效果均不如深度學(xué)習(xí)。而對(duì)深度學(xué)習(xí)算法的研究是熱點(diǎn)與前沿,近年常有大量新改進(jìn)的和新提出的算法,其網(wǎng)絡(luò)設(shè)計(jì)的基本原理也在被不斷發(fā)現(xiàn)。所以雖然目前并沒(méi)有太多研究成果,但未來(lái)本問(wèn)題的研究在深度學(xué)習(xí)方法上將有很大的提升空間。
在研究抗癌藥物作用效果的問(wèn)題上,相較于傳統(tǒng)的基因檢測(cè)和功能性實(shí)驗(yàn)的方法[38-40],使用計(jì)算方法有著時(shí)間短、成本低的優(yōu)點(diǎn)。然而使用計(jì)算方法仍存在瓶頸。首先,細(xì)胞系不同于癌癥患者身上的腫瘤細(xì)胞,缺少空間結(jié)構(gòu)、微環(huán)境等重要影響因素。其次,癌癥具有異質(zhì)性,預(yù)測(cè)的藥物作用結(jié)果只能通過(guò)患者細(xì)胞樣本與細(xì)胞系的相似程度,通過(guò)計(jì)算模型預(yù)測(cè)患者對(duì)某種藥物的敏感或抵抗,這顯然有因誤差而出現(xiàn)錯(cuò)誤判斷的可能。最后,一些計(jì)算模型雖然表現(xiàn)良好,但是其缺乏可解釋性,研究者無(wú)法通過(guò)其算法的計(jì)算機(jī)理為解釋癌癥進(jìn)行指導(dǎo)。
而在精準(zhǔn)醫(yī)療與癌癥診療結(jié)合的路上也并不平坦,因?yàn)槿狈Ξa(chǎn)出和通過(guò)一些隨機(jī)性試驗(yàn)結(jié)果[41]的驗(yàn)證,癌癥精準(zhǔn)醫(yī)療的意義曾受到質(zhì)疑[2-3]。但隨著越來(lái)越多有積極意義研究成果的發(fā)表,癌癥精準(zhǔn)醫(yī)療的理念得到了更多的側(cè)面驗(yàn)證,雖然離它的徹底實(shí)現(xiàn)研究者們?nèi)匀沃氐肋h(yuǎn)。
對(duì)基于計(jì)算方法視角的抗癌藥物作用預(yù)測(cè)以及整個(gè)癌癥精準(zhǔn)醫(yī)療的發(fā)展有如下展望:
1)嘗試前沿計(jì)算機(jī)算法,與算法發(fā)展相輔相成。計(jì)算方法的核心是計(jì)算機(jī)算法,研究者通過(guò)嘗試前沿的算法有提高模型表現(xiàn)的可能性。如深度學(xué)習(xí)是目前生物學(xué)信息學(xué)方向的應(yīng)用熱點(diǎn)之一,如上文所述,已經(jīng)有研究成果證實(shí)深度學(xué)習(xí)可以在對(duì)抗癌藥物作用效果預(yù)測(cè)上取得良好的效果。而隨著研究人員對(duì)深度學(xué)習(xí)算法的不斷創(chuàng)造與改進(jìn),在本問(wèn)題上可以預(yù)見(jiàn)會(huì)有較大的提升空間。
2)標(biāo)準(zhǔn)化實(shí)驗(yàn)數(shù)據(jù),普及精準(zhǔn)醫(yī)療概念。所參考的文獻(xiàn)證實(shí)了可以直接使用計(jì)算方法分析標(biāo)準(zhǔn)化后的癌癥臨床數(shù)據(jù)。而能否獲取更多可以用于計(jì)算分析的數(shù)據(jù),取決于醫(yī)療從業(yè)人員是否有意識(shí)地采集有一定規(guī)范性、可以用于計(jì)算實(shí)驗(yàn)的數(shù)據(jù)。提高醫(yī)療從業(yè)人員對(duì)精準(zhǔn)醫(yī)療概念的認(rèn)識(shí)可以加快其發(fā)展進(jìn)程。同樣由數(shù)據(jù)科學(xué)家更新發(fā)布的數(shù)據(jù)庫(kù)數(shù)據(jù)也可為計(jì)算方法提供更多的實(shí)驗(yàn)數(shù)據(jù)來(lái)訓(xùn)練更符合實(shí)際情況的計(jì)算模型。對(duì)本問(wèn)題的研究從早期的NCI-60數(shù)據(jù)源發(fā)展到GDSC和CCLE等大型的數(shù)據(jù)庫(kù)階段,其模型的泛化能力已有了顯著的提高。
3)多角度分析癌癥并設(shè)計(jì)實(shí)驗(yàn)。對(duì)抗癌藥物作用的影響因素有很多,如點(diǎn)突變、染色體變異、基因表達(dá)量變化等。一般計(jì)算方法只選取其中一種或幾種作為模型的輸入特征,很少有實(shí)驗(yàn)?zāi)軌蛉婢C合多組學(xué)和多因素來(lái)訓(xùn)練模型。所以如何融合多角度數(shù)據(jù)訓(xùn)練出能多方面觀測(cè)患者(或細(xì)胞系)基因型的模型是未來(lái)可以突破的關(guān)鍵點(diǎn)之一。但與此而來(lái)的數(shù)據(jù)量少、不全,特征權(quán)重平衡等問(wèn)題也需要在實(shí)驗(yàn)設(shè)計(jì)階段有足夠的理論支持。
4)消除臨床實(shí)驗(yàn)與計(jì)算實(shí)驗(yàn)的隔閡。一直以來(lái),臨床實(shí)驗(yàn)和計(jì)算實(shí)驗(yàn)都不能很好地融合。臨床實(shí)驗(yàn)一般傾向于數(shù)據(jù)來(lái)源和采樣方法的獨(dú)特性,而在分析過(guò)程中多使用數(shù)學(xué)統(tǒng)計(jì)方法,分析結(jié)果僅能揭示現(xiàn)象缺乏直接應(yīng)用價(jià)值。計(jì)算實(shí)驗(yàn)強(qiáng)調(diào)模型的表現(xiàn)和特征選擇的合理性,最終的實(shí)驗(yàn)結(jié)果有一定應(yīng)用價(jià)值但因?yàn)槿狈忉屝匀菀撞槐慌R床所接受。筆者認(rèn)為,如何能在設(shè)計(jì)實(shí)驗(yàn)時(shí)將臨床與計(jì)算兩者結(jié)合是本問(wèn)題乃至整個(gè)癌癥精準(zhǔn)醫(yī)療取得突破進(jìn)展的關(guān)鍵點(diǎn)。如用計(jì)算方法將臨床研究結(jié)果轉(zhuǎn)化為臨床前模型和用臨床方法檢驗(yàn)計(jì)算實(shí)驗(yàn)發(fā)現(xiàn)的生物標(biāo)志物等,都值得研究人員嘗試。
綜上所述,計(jì)算方法有著一定的局限性,但在抗癌藥物作用的預(yù)測(cè)問(wèn)題上有著良好的表現(xiàn)和可以預(yù)期的提升空間。如何更好地使用計(jì)算方法是癌癥精準(zhǔn)醫(yī)療未來(lái)發(fā)展的重點(diǎn)之一。