亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種預(yù)測(cè)個(gè)體腫瘤的抗癌藥物反應(yīng)分類計(jì)算模型及其應(yīng)用*

        2022-07-21 11:52:16李少達(dá)李玉雙
        關(guān)鍵詞:抗癌細(xì)胞系敏感性

        李少達(dá) 李玉雙

        (燕山大學(xué)理學(xué)院,秦皇島 066004)

        癌癥的異質(zhì)性和遺傳多樣性,導(dǎo)致同種癌癥的患者即使采用相同的治療方法,也有可能得到不同的療效[1?3]。從患者的角度,更希望了解給定藥物是否有效。針對(duì)特定癌癥類型,如何在分子水平上探索癌細(xì)胞系對(duì)抗癌藥物的反應(yīng)已成為精準(zhǔn)醫(yī)療的研究熱點(diǎn)之一[4]?;蚪M學(xué)的快速發(fā)展及人類基因組計(jì)劃的順利實(shí)施,誕生了海量的生物學(xué)數(shù)據(jù),為在分子水平上預(yù)測(cè)抗癌藥物臨床反應(yīng)提供了良好的數(shù)據(jù)基礎(chǔ)[5]。特別值得一提的是,2012年《自然》(Nature)雜志發(fā)表了兩項(xiàng)系統(tǒng)的大規(guī)模研究,癌癥基因組計(jì)劃(CGP)[6]和癌細(xì)胞百科全書(shū)(CCLE)[7],研究中所涉及到的細(xì)胞系幾乎涵蓋所有常見(jiàn)的癌癥類型,使得完全以數(shù)據(jù)驅(qū)動(dòng)、計(jì)算建模的方式自動(dòng)識(shí)別生物標(biāo)志物,系統(tǒng)解析抗癌藥物反應(yīng)與癌癥細(xì)胞系基因譜之間的關(guān)系成為可能。

        研究人員借助這些數(shù)據(jù)集開(kāi)發(fā)抗癌藥物反應(yīng)預(yù)測(cè)計(jì)算模型[8?11]的主要思想有兩種,一種是基于核方法預(yù)測(cè)藥物敏感性,其中最具有代表性的模型之一為支持向量機(jī)(SVM)。如Hejase 等[12]基于美國(guó)國(guó)家癌癥研究中心(NCI)數(shù)據(jù),應(yīng)用非線性SVM成功預(yù)測(cè)了藥物化合物對(duì)乳腺癌細(xì)胞的影響;Wang等[13]基于CCLE數(shù)據(jù)集,利用基因突變、拷貝數(shù)變異和基因表達(dá)等數(shù)據(jù),通過(guò)組合SVM 模型對(duì)三類特定組織下的細(xì)胞系進(jìn)行了敏感性分類。另一種是基于特征提取方法預(yù)測(cè)抗癌藥物反應(yīng)。如最近Su等[14]融合基因表達(dá)和拷貝數(shù)變異,構(gòu)建了兩類 深 度 反 應(yīng) 森 林(Deep?Resp?Forest) 模 型MIMGS1 和MIMGS2,成功預(yù)測(cè)抗癌藥物對(duì)細(xì)胞系的敏感或抑制。

        上述模型大大推進(jìn)了抗癌藥物反應(yīng)預(yù)測(cè)的研究進(jìn)程,但在模型預(yù)測(cè)性能、應(yīng)用范圍等方面仍有可探索的空間。受以上工作啟發(fā),本文聚焦抗癌藥物敏感?抑制二分類問(wèn)題,構(gòu)建了mRMR?SVM模型,從細(xì)胞系的基因表達(dá)數(shù)據(jù)出發(fā),利用“最大相關(guān)最小冗余”算法[15](mRMR)提取特征基因,借助SVM 進(jìn)行分類預(yù)測(cè),不僅降低了時(shí)間運(yùn)行成本,而且提升了模型的預(yù)測(cè)性能和生物可解釋性。

        1 數(shù)據(jù)來(lái)源和數(shù)據(jù)處理

        從CCLE數(shù)據(jù)庫(kù)(http://www.broadinstitute.org/ccle)下載了1 036 個(gè)癌癥細(xì)胞系的53 619 個(gè)基因表達(dá)信息,以及504個(gè)細(xì)胞系對(duì)24種藥物的敏感性數(shù)據(jù)(敏感性指標(biāo)為activity area)。進(jìn)一步選出462 個(gè)既有基因表達(dá)又有藥物敏感性數(shù)據(jù)的細(xì)胞系,并用z?score 方法標(biāo)準(zhǔn)化敏感性數(shù)據(jù)。依據(jù)文獻(xiàn)[14],如果細(xì)胞系對(duì)藥物的敏感性值(標(biāo)準(zhǔn)化后的敏感性值)大于0.8,定義為“細(xì)胞系對(duì)藥物是敏感的”,如果小于-0.8,定義為“細(xì)胞系對(duì)藥物是抑制的”,其余數(shù)據(jù)定義為冗余數(shù)據(jù),不參與實(shí)驗(yàn)。在此定義下,有2 種藥物對(duì)應(yīng)的細(xì)胞系很少,故在實(shí)驗(yàn)中舍去,保留其余22 種藥物進(jìn)行分類預(yù)測(cè),其對(duì)應(yīng)細(xì)胞系的數(shù)量范圍是93~215。

        為驗(yàn)證模型的泛化性能,選取另一數(shù)據(jù)庫(kù)進(jìn)行實(shí)驗(yàn)。從癌癥藥物敏感性基因組學(xué)數(shù)據(jù)集(GDSC)(https://www.cancerrxgene.org) 下 載 了789 個(gè)癌細(xì)胞系的12 072 個(gè)基因表達(dá)信息,655 個(gè)癌細(xì)胞系對(duì)140種藥物的敏感性數(shù)據(jù)(敏感性指標(biāo)為IC50)。采用與CCLE 相同的處理方式,選取11種藥物進(jìn)行分類預(yù)測(cè),其對(duì)應(yīng)細(xì)胞系的數(shù)量范圍是76~179。

        2 mRMR-SVM模型

        本文首先利用mRMR 提取特征基因,然后構(gòu)建SVM預(yù)測(cè)抗癌藥物反應(yīng)分類及識(shí)別生物標(biāo)志物。具體流程如圖1所示。

        2.1 特征基因的選取

        Fig.1 The flowchart of mRMR-SVM

        由于CCLE的基因數(shù)量大,許多基因的表達(dá)值差別不明顯,為降低模型運(yùn)行成本,本文先計(jì)算每個(gè)基因在所有細(xì)胞系下的表達(dá)方差,再將基因按方差從高到低的順序進(jìn)行排序,選取表達(dá)差異較大的前10 000 個(gè)基因作為候選特征基因。然后利用mRMR 算法提取得分最高的基因集合作為最終的特征基因集。具體定義如下:設(shè)x,y為隨機(jī)變量,p(x),p(y),p(x,y)為概率密度函數(shù),則x 和y之 間 的 互 信 息 為 : I(x; y) =設(shè)S為基因表達(dá)向量的集合(為方便計(jì)算,本文選取|S|= 500),c為給定藥物在所有細(xì)胞系下觀測(cè)到的“敏感?抑制”類別向量:如果第j 個(gè)細(xì)胞系對(duì)給定藥物是敏感的,其分量cj= 1;如果第j 個(gè)細(xì)胞系對(duì)給定藥物是抑制的,cj=-1。定義S與c的相關(guān)度D(S,c)=即S 中的基因表達(dá)向量與類別向量c 之間的所有互信息值的平均值,這里xi為S中第i 個(gè)基因在所有細(xì)胞系下的表達(dá)向量。定義S的冗余度即S 中基因表達(dá)向量之間所有互信息值的平均值。定義S的得分

        由于GDSC的基因數(shù)量相對(duì)較小,故在實(shí)驗(yàn)中不需進(jìn)行基因初篩,直接利用mRMR 算法提取特征基因。

        2.2 mRMR-SVM的構(gòu)建

        SVM 解決線性不可分問(wèn)題的主要思想是:將原始低維線性不可分的分類空間映射到高維的特征空間,只要映射的空間維數(shù)足夠高,則原始空間將轉(zhuǎn)換為一個(gè)新的線性可分空間。通過(guò)在線性可分空間建立一個(gè)最優(yōu)的決策超平面,使得距離分類平面兩側(cè)最近的訓(xùn)練樣本之間距離最大,將線性不可分的數(shù)據(jù)轉(zhuǎn)化為線性可分。本文構(gòu)建的SVM 包含兩個(gè)參數(shù),即低維空間映射到高維空間的核函數(shù)以及懲罰因子C。

        利用mRMR 選取的500 個(gè)特征基因的表達(dá)數(shù)據(jù)和觀測(cè)到的反應(yīng)分類標(biāo)簽來(lái)訓(xùn)練SVM,具體的mRMR?SVM構(gòu)建過(guò)程如圖2所示。

        Fig.2 The construction of mRMR-SVM

        采用交叉驗(yàn)證確定模型參數(shù)及評(píng)估模型性能。首先,將數(shù)據(jù)集隨機(jī)分為90%的訓(xùn)練集和10%的測(cè)試集;為防止模型過(guò)擬合,再將訓(xùn)練集隨機(jī)平均劃分為5 份,分別用其中4 份作為訓(xùn)練集,1 份作為驗(yàn)證集訓(xùn)練模型超參數(shù);最后,用測(cè)試集進(jìn)行模型性能評(píng)估。上述過(guò)程重復(fù)執(zhí)行5次,測(cè)試集分類結(jié)果的均值為最終預(yù)測(cè)結(jié)果。本文所用編程語(yǔ)言為Python,代碼見(jiàn)本文網(wǎng)絡(luò)版附件。

        2.3 模型的評(píng)價(jià)指標(biāo)

        本文采用ACC、AUC、precision、recall 和F1 5個(gè)指標(biāo)來(lái)評(píng)價(jià)模型的預(yù)測(cè)性能。

        ACC為模型的預(yù)測(cè)準(zhǔn)確率,具體定義為:

        其中,TP 為預(yù)測(cè)是敏感而實(shí)際也是敏感的細(xì)胞系數(shù)量,TN為預(yù)測(cè)是抑制而實(shí)際也是抑制的細(xì)胞系數(shù)量,F(xiàn)P 和FN 為預(yù)測(cè)是敏感和抑制而實(shí)際則相反的細(xì)胞系數(shù)量。

        AUC(area under curve)為利用預(yù)測(cè)結(jié)果所繪制的ROC 曲線下面積,ROC 曲線的縱坐標(biāo)為T(mén)PR(true positive rate),橫坐標(biāo)為FPR(false positive rate),這里TPR為真陽(yáng)率,F(xiàn)PR為假陽(yáng)率。

        precision為精確率,反應(yīng)了模型預(yù)測(cè)為敏感的細(xì)胞系的預(yù)測(cè)準(zhǔn)確率,定義為:

        recall 為召回率,反應(yīng)了模型對(duì)敏感細(xì)胞系的預(yù)測(cè)準(zhǔn)確率,定義為:

        F1 得分是綜合precision 和recall 給出的平均定義,其值越大,說(shuō)明模型預(yù)測(cè)性能越好。定義為:

        3 抗癌藥物反應(yīng)分類預(yù)測(cè)結(jié)果

        模型訓(xùn)練的最優(yōu)核函數(shù)為linear。對(duì)于懲罰因子C,本文采用了兩種確定方法,第一種直接使用模型默認(rèn)的參數(shù)1,第二種針對(duì)每種藥物單獨(dú)調(diào)整選出最優(yōu)參數(shù)。

        3.1 基于CCLE數(shù)據(jù)集的預(yù)測(cè)結(jié)果分析與比較

        針對(duì)CCLE數(shù)據(jù)集的22種藥物,選取C為默認(rèn)值1的mRMR?SVM預(yù)測(cè)結(jié)果(表1):22種藥物的平 均ACC、AUC、precision、recall、F1 分 別 為0.897、0.966、0.898、0.892、0.888。單獨(dú)調(diào)C 的預(yù)測(cè)結(jié)果(表2):平均ACC、AUC、precision、recall、F1 分 別 為0.904、0.969、0.905、0.898、0.895。從預(yù)測(cè)結(jié)果可以看出,單獨(dú)調(diào)C 的模型預(yù)測(cè)結(jié)果更理想。

        為了闡釋mRMR 算法提取的500 個(gè)特征基因?qū)拱┧幬锓磻?yīng)分類預(yù)測(cè)的影響,一方面,利用mRMR算法提取的500個(gè)特征基因訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)(DNN),簡(jiǎn)稱mRMR?DNN。使用網(wǎng)格搜索法調(diào)參,最終確定mRMR?DNN 包含3 個(gè)隱藏層,每個(gè)隱藏層的神經(jīng)元個(gè)數(shù)分別為60、30 和30,層與層之間的激活函數(shù)分別為tanh、rectifier 和linear,輸出層的激活函數(shù)為softmax。另一方面,從經(jīng)過(guò)方差篩選出的10 000 個(gè)基因中隨機(jī)挑選500 個(gè)基因,訓(xùn)練SVM 和隨機(jī)森林(RF),兩種模型均采用網(wǎng)格搜索法調(diào)參,SVM 的最終參數(shù)C=0.1,RF的參數(shù)(決策樹(shù)的個(gè)數(shù))為80。

        Table 1 Classification result of mRMR-SVM on CCLE data set(C=1)

        Table 2 Classification result of mRMR-SVM on CCLE data set(C separately adjusted)

        在共同討論的14種抗癌藥物反應(yīng)分類預(yù)測(cè)中,mRMR?SVM(單獨(dú)調(diào)參)的平均ACC 為0.911,mRMR?DNN為0.899,SVM為0.525,RF為0.526,文獻(xiàn)[14]中的MIMGS1 和MIMGS2 分別為0.858、0.850,說(shuō)明mRMR 算法提取的500 個(gè)特征基因?qū)拱┧幬锓磻?yīng)分類預(yù)測(cè)至關(guān)重要。圖3從整體上展示了以上6 種模型的預(yù)測(cè)性能,mRMR?SVM 明顯優(yōu)于其他5種模型。此外,與文獻(xiàn)[16]中的CDCN模型進(jìn)行比較,在共同討論的22 種抗癌藥物的反應(yīng)分類預(yù)測(cè)中,mRMR?SVM的平均ACC為0.904,高于CDCN(0.566)。

        Fig.3 The classification accuracy of six models on CCLE data set

        3.2 基于GDSC數(shù)據(jù)集的預(yù)測(cè)結(jié)果分析與比較

        針對(duì)GDSC數(shù)據(jù)集中的11種藥物,表3展示了mRMR?SVM 在C 為默認(rèn)值1 時(shí)的預(yù)測(cè)結(jié)果:平均ACC、AUC、precision、recall、F1 分別為0.839、0.909、0.850、0.840、0.834。單獨(dú)調(diào)C的預(yù)測(cè)性能進(jìn)一步提升(表4),平均ACC、AUC、precision、recall、F1 分 別 為0.851、0.917、0.865、0.848、0.845。

        Table 3 Classification result of mRMR-SVM on GDSC data set(C=1)

        Table 4 Classification result of mRMR-SVM on GDSC data set(C separately adjusted)

        對(duì)于GDSC 數(shù)據(jù)集,本文同樣訓(xùn)練了mRMR?DNN:包含3個(gè)隱藏層,每層的神經(jīng)元個(gè)數(shù)分別為63、78 和86,層與層之間的激活函數(shù)分別為rectifier、linear 和tanh,輸出層的激活函數(shù)為softmax。同樣地,從GDSC 數(shù)據(jù)集12 072 個(gè)基因中隨機(jī)挑選500 個(gè)作為特征基因,訓(xùn)練了SVM(C=0.9)和RF(決策樹(shù)個(gè)數(shù)為95)。針對(duì)共同討論的11 種藥物,mRMR?SVM(單獨(dú)調(diào)C)的平均ACC 為0.851, mRMR?DNN 為0.817, SVM 為0.652,RF 為0.640,MIMGS1 為0.805,MIMGS2為0.815。圖4 從整體上展示了6 種模型的預(yù)測(cè)結(jié)果,mRMR?SVM 的預(yù)測(cè)性能明顯優(yōu)于其他5 種模型。此外,針對(duì)共同討論的7 種藥物,mRMR?SVM的平均ACC為0.861,高于文獻(xiàn)[16]的CDCN模型(0.630)。

        Fig.4 The classification accuracy of six models on GDSC data set

        3.3 基于三類特定組織的預(yù)測(cè)結(jié)果分析與比較

        為進(jìn)一步驗(yàn)證mRMR?SVM的泛化能力,受文獻(xiàn)[13]的啟發(fā),對(duì)CCLE數(shù)據(jù)集中三類特定組織下的細(xì)胞系,包括造血和淋巴組織(包含71 個(gè)細(xì)胞系)、皮膚組織(包含40 個(gè)細(xì)胞系)、肺組織(包含94個(gè)細(xì)胞系),針對(duì)22種抗癌藥物進(jìn)行反應(yīng)分類預(yù)測(cè)??紤]到模型的泛化性,參數(shù)C 取默認(rèn)值1。五次五折交叉驗(yàn)證得到的平均預(yù)測(cè)結(jié)果如表5 所示。三類特定組織的平均AUC 依次達(dá)到了0.973、0.981、0.965,均優(yōu)于文獻(xiàn)[13]中基于基因表達(dá)、拷貝數(shù)變異、基因突變等多類數(shù)據(jù)融合的SVM(其平均AUC 依次為0.81、0.82、0.83)。該實(shí)驗(yàn)表明,mRMR?SVM 對(duì)于小樣本數(shù)據(jù)集同樣具有很好的預(yù)測(cè)能力。

        Table 5 Average classification result of mRMR-SVM on three kinds of tissues

        4 生物標(biāo)志物的識(shí)別

        mRMR?SVM 能夠識(shí)別出許多與癌癥發(fā)生、發(fā)展密切相關(guān)的重要基因,為抗癌藥物生物標(biāo)志物的篩選提供理論參考。如在抗癌藥物17?AAG的特征基因中排序第二的TP73?AS1,已被證實(shí)在大多數(shù)腫瘤中高表達(dá),在乳腺癌、胃癌和肝癌等腫瘤中發(fā)揮促癌基因作用,在膀胱癌中低表達(dá)并發(fā)揮抑癌基因作用[17]。PARK7在4種藥物17?AAG、Nutlin?3、Panobinostat和RAF265中均被選為T(mén)op基因。事實(shí)上,PARK7 已被確定為各種癌癥的發(fā)病機(jī)制和生存的高危因素,它增強(qiáng)了腫瘤的起始、增殖、轉(zhuǎn)移和復(fù)發(fā),以及對(duì)化療的抵抗力[18]。有文獻(xiàn)發(fā)現(xiàn),PQLC2 的上調(diào)對(duì)于體外和體內(nèi)胃癌的發(fā)展至關(guān)重要,靶向PQLC2是胃癌治療的有效策略[19]。本文驗(yàn)證了PQLC2 不僅是具有抗胃癌活性藥物ZD?6474 的Top 基因,而且在另外3 種抗癌藥物PD?0332991、TAE684和Topotecan的特征基因排序中也位居前5。IFI6 是一個(gè)能被Ⅰ型干擾素誘導(dǎo)上調(diào)的干擾素刺激基因,在多種惡性腫瘤中高表達(dá),能夠抵抗細(xì)胞凋亡,對(duì)腫瘤的放化療效果有一定影響[20]。文中IFI6 在5 種藥物17?AAG、Erlotinib、TKI258、ZD?6474 和AZD0530 的特征基因排序中均位居前10,與已有結(jié)果一致。

        5 結(jié) 論

        本文提出的mRMR?SVM 不僅在公共數(shù)據(jù)集CCLE、GDSC,以及三類特定組織中取得了較好的分類預(yù)測(cè)結(jié)果,而且能夠識(shí)別與抗癌藥物反應(yīng)相關(guān)聯(lián)的生物標(biāo)志物,說(shuō)明其可以作為抗癌藥物反應(yīng)分類預(yù)測(cè)的有效工具。此外,mRMR?SVM 具有可拓展性,可融入其他類型數(shù)據(jù)(如基因突變等)進(jìn)一步提升模型的預(yù)測(cè)性能。對(duì)于模型篩選的特征基因,可以構(gòu)建特征基因信息與藥物敏感性之間的回歸模型(如嶺回歸、邏輯回歸),通過(guò)回歸系數(shù)挖掘抗癌藥物敏感性預(yù)測(cè)因子。

        附件 PIBB_20210082?prgm?S1.zip 請(qǐng)見(jiàn)本文網(wǎng)絡(luò)版(www.pibb.ac.cn或www.cnki.net)。

        猜你喜歡
        抗癌細(xì)胞系敏感性
        Fuzheng Kang' ai decoction (扶正抗癌方) inhibits cell proliferation,migration and invasion by modulating mir-21-5p/human phosphatase and tensin homology deleted on chromosome ten in lung cancer cells
        抗癌之窗快樂(lè)攝影
        抗癌之窗(2020年1期)2020-05-21 10:18:10
        三十年跑成抗癌明星
        特別健康(2018年9期)2018-09-26 05:45:26
        釔對(duì)Mg-Zn-Y-Zr合金熱裂敏感性影響
        抗癌新聞
        AH70DB鋼焊接熱影響區(qū)組織及其冷裂敏感性
        焊接(2016年1期)2016-02-27 12:55:37
        STAT3對(duì)人肝內(nèi)膽管癌細(xì)胞系增殖與凋亡的影響
        如何培養(yǎng)和提高新聞敏感性
        新聞傳播(2015年8期)2015-07-18 11:08:24
        抑制miR-31表達(dá)對(duì)胰腺癌Panc-1細(xì)胞系遷移和侵襲的影響及可能機(jī)制
        E3泛素連接酶對(duì)卵巢癌細(xì)胞系SKOV3/DDP順鉑耐藥性的影響
        无码精品国产va在线观看| 国产精品亚洲一二三区| 精品亚洲麻豆1区2区3区| 极品少妇被猛的白浆直喷白浆| 国产A√无码专区| 国产一区二区丁香婷婷| 国产精品亚洲一区二区三区在线| 亚洲无线一二三四区手机| 少妇厨房愉情理伦片免费| avtt一区| 国产人妻久久精品二区三区老狼| 伊人大杳焦在线| 国产精品久久久久国产a级| 国产91第一页| 一级一片内射视频网址| 69精品人人人人| 99久久综合狠狠综合久久| 视频女同久久久一区二区三区| 青青草激情视频在线播放| 亚洲a∨无码男人的天堂| 亚洲综合一区二区三区四区五区| 日韩精品一区二区三区四区视频| 在线播放亚洲丝袜美腿| 西西大胆午夜人体视频| 亚洲AV伊人久久综合密臀性色| 三级黄片一区二区三区| 九九九免费观看视频| 国产免费无码一区二区三区| 99久久久国产精品丝袜| 成av人大片免费看的网站| 麻豆一区二区三区蜜桃免费| 国产一区曰韩二区欧美三区| 日本一区二区高清在线观看| 人人妻人人添人人爽欧美一区 | 亚洲精品国产二区三区在线| 精品少妇人妻av一区二区蜜桃 | 一区二区三区观看在线视频| 国产精品无码一区二区三级| 亚洲欧洲日产国码高潮αv| av亚洲在线一区二区| 一区二区三区国产免费视频 |