楊 光, 郝逸凡
(沈陽(yáng)師范大學(xué) 數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院, 沈陽(yáng) 110034)
前列腺癌是發(fā)生在男性前列腺組織中的惡性腫瘤,是前列腺腺泡細(xì)胞異常無(wú)序生長(zhǎng)的結(jié)果。前列腺癌發(fā)病率的高低與地理和種族的差異性有關(guān)。在歐美一些發(fā)達(dá)國(guó)家和地區(qū),它是男性最常見(jiàn)的惡性腫瘤,死亡率排在各種癌癥的第二位;在亞洲,雖然發(fā)病率低于其他西方國(guó)家,但是近幾年也呈迅速上升趨勢(shì)。臨床上前期主要采用雄激素剝奪療法(ADT)治療前列腺癌,然而幾乎所有患者最終都會(huì)發(fā)展為致命性的去勢(shì)抵抗型前列腺癌(CRPC)。雖然FDA(美國(guó)食品藥品管理局)批準(zhǔn)的第二代抗雄激素藥物如Enzalutamide(恩雜魯胺)和Abiraterone(阿比特龍)等對(duì)緩解疾病進(jìn)展具有一定的功效,但患者很快就會(huì)出現(xiàn)臨床耐藥。因此,臨床上迫切需要治療前列腺癌的特效藥。
鑒于國(guó)內(nèi)現(xiàn)有的醫(yī)療水平,針對(duì)前列腺癌僅能通過(guò)常規(guī)手術(shù)治療、內(nèi)分泌及化學(xué)藥物療法來(lái)提高患者的生活質(zhì)量,但提高患者的生存期依舊是一個(gè)難題。目前,分子靶向治療已成為腫瘤治療的研究熱點(diǎn),為前列腺癌的治療也提供了新的思路和方向。利用基因表達(dá)譜等組學(xué)技術(shù)發(fā)現(xiàn)抗前列腺癌的藥物靶標(biāo)可作為一個(gè)重要手段。但新藥開(kāi)發(fā)是一個(gè)耗時(shí)費(fèi)力的高風(fēng)險(xiǎn)過(guò)程,充分發(fā)掘已有藥物的新用途,對(duì)藥物進(jìn)行重定位,備受生物醫(yī)藥產(chǎn)業(yè)和學(xué)者們的青睞[13]。
藥物重定位又稱(chēng)老藥新用,指對(duì)曾經(jīng)用于臨床的藥物新適應(yīng)癥的發(fā)現(xiàn)、確認(rèn)和應(yīng)用。包括對(duì)處于臨床研究階段或已批準(zhǔn)上市的藥物進(jìn)行重定位、重定用途、重評(píng)價(jià)和重新定位治療方向等[4]。推動(dòng)一個(gè)新藥物上市通常需要13—15年,其成本平均需要20~30億美元,且處于上升趨勢(shì)。 如果對(duì)已有藥物進(jìn)行研究,一旦它們擁有不同的醫(yī)療用途,這將是一個(gè)巨大的未開(kāi)發(fā)資源。“藥物重定位”可以跳過(guò)臨床Ⅰ期,相比于新藥物大大地縮減研究成本和投入時(shí)間。到目前為止,從已知的藥物中發(fā)現(xiàn)新的適應(yīng)癥,成功重定位的藥物已經(jīng)有100多種。如何從已知藥物中發(fā)現(xiàn)對(duì)于前列腺癌有治療效果的藥物是本文探討的問(wèn)題。
互信息(mutual information)是信息論里一種有用的信息度量,它可以看成是一個(gè)隨機(jī)變量中包含的關(guān)于另一個(gè)隨機(jī)變量的信息量,或者說(shuō)是一個(gè)隨機(jī)變量由于已知另一個(gè)隨機(jī)變量而減少的不肯定性[5]。因?yàn)榛蚺c基因間具有關(guān)聯(lián)性。采取基于互信息算法的特征基因提取方法可以保留這種關(guān)聯(lián)性。如果互信息值比較大,說(shuō)明這兩個(gè)基因之間的關(guān)聯(lián)性比較大,即在生物學(xué)上的聯(lián)系比較緊密。如果互信息值比較小,說(shuō)明這兩個(gè)基因之間的關(guān)聯(lián)性比較小,即在生物學(xué)上的聯(lián)系不緊密。如何用互信息算法提取出前列腺癌的特征表達(dá)基因是本文探討的問(wèn)題。
cmap[6]是利用小分子藥物、基因表達(dá)與疾病相互關(guān)聯(lián)的生物應(yīng)用數(shù)據(jù)庫(kù)。通過(guò)基因表達(dá)譜建立基因、疾病和藥物三者的關(guān)聯(lián)性,并快速利用基因表達(dá)譜的數(shù)據(jù)比對(duì)出與疾病高關(guān)聯(lián)性的藥物。近年來(lái)的研究趨勢(shì)表明:將cmap基因表達(dá)譜數(shù)據(jù)庫(kù)應(yīng)用于疾病治療與藥物開(kāi)發(fā)領(lǐng)域,可提供越來(lái)越精確的方向。在藥物開(kāi)發(fā)方面,利用基因表達(dá)譜的數(shù)據(jù)在cmap數(shù)據(jù)庫(kù)中快速比對(duì)出與疾病高關(guān)聯(lián)性的藥物。目前已經(jīng)有學(xué)者成功的利用cmap驗(yàn)證了抗?jié)兯幙梢杂糜谥委煼伟?抗癲癇藥物可以用來(lái)治療炎癥性腸道疾病,抗哮喘藥物可以用來(lái)預(yù)防白內(nèi)障等。如何將這種方法應(yīng)用在抗前列腺癌藥物的領(lǐng)域里是本文研究的問(wèn)題。
本文首先從TCGA數(shù)據(jù)庫(kù)中獲取前列腺癌與癌旁的基因表達(dá)數(shù)據(jù),利用R軟件將數(shù)據(jù)進(jìn)行預(yù)處理;然后利用互信息算法將與前列腺腫瘤密切相關(guān)的特征基因篩選出來(lái);最后通過(guò)cmap數(shù)據(jù)庫(kù)分析,檢索出具有與腫瘤基因相反的基因標(biāo)簽的藥物。Thioridazine(硫利達(dá)嗪)作為一種用于治療急性精神分裂癥,躁狂癥以及抑郁癥的藥物,經(jīng)分析比對(duì)得到的負(fù)相關(guān)分值最高,表明對(duì)于前列腺癌可能具有較好的治療效果。trichostatin A、LY-294002、Sirolimus(西羅莫司)等化合物也具有較高的負(fù)相關(guān)分值,表明極可能對(duì)前列腺癌有治療效果。
TCGA是美國(guó)國(guó)家癌癥研究所(National Cancer Institute)和美國(guó)人類(lèi)基因組研究所(National Human Genome Research Institute)共同監(jiān)督的一個(gè)項(xiàng)目,旨在應(yīng)用高通量的基因組分析技術(shù),幫助人們對(duì)癌癥有個(gè)更好的認(rèn)知,從而提高對(duì)于癌癥的預(yù)防、診斷和治療能力。作為目前最大的癌癥基因信息數(shù)據(jù)庫(kù),TCGA數(shù)據(jù)庫(kù)主要收錄各種人類(lèi)癌癥(包括亞型在內(nèi)的腫瘤)的臨床數(shù)據(jù)、基因組變異和mRNA表達(dá)等數(shù)據(jù),是癌癥研究者十分重要的數(shù)據(jù)來(lái)源。本文的前列腺基因表達(dá)數(shù)據(jù)來(lái)自TCGA數(shù)據(jù)庫(kù),共獲得前列腺癌與癌旁的基因表達(dá)數(shù)據(jù),包括488個(gè)患病樣本和12個(gè)健康樣本,共60 482條基因(https:∥cancergenome.nih.gov/)。
對(duì)于復(fù)雜的基因關(guān)系,熵和互信息的方法能有效抓住基因與基因之間的關(guān)聯(lián)性,提取出復(fù)雜疾病的致病基因[7]。熵是對(duì)不確定性的度量,在信息論中,熵是用來(lái)衡量一個(gè)隨機(jī)變量出現(xiàn)的期望值。設(shè)基因變量X=[x1,x2,…,xn]是一個(gè)基因表達(dá)模式[8],基因變量X的熵表示該模式所包含的信息量公式為
互信息是信息論中的一種有用的信息度量,可以看成是一個(gè)隨機(jī)變量中包含的關(guān)于另一個(gè)隨機(jī)變量的信息量。對(duì)于2個(gè)隨機(jī)變量X和Y,其互信息公式為
傳統(tǒng)的特征基因提取方法通常只注重單個(gè)基因的表達(dá),而忽略了基因之間的關(guān)聯(lián)性。針對(duì)這種情況,可以采取基于互信息算法的特征基因提取,如果互信息值比較大,說(shuō)明這2個(gè)基因之間的關(guān)聯(lián)性比較大,即在生物學(xué)上的聯(lián)系比較緊密。計(jì)算出每條基因的信息熵,信息熵越大,證明該條基因在樣本中擁有較大的信息量,對(duì)樣本的影響也就越大。所以基于信息熵的角度,將每條基因的信息熵降序排列,取前5 000個(gè)基因,計(jì)算其在患病樣本和健康樣本中的互信息值,得到2個(gè)互信息矩陣矩陣,即Ic和In。
在健康樣本中和其他基因關(guān)聯(lián)較小即互信息值較小,在患病樣本中該基因又與其他基因具有較大的關(guān)聯(lián)性即互信息值較大的基因?yàn)閺氖?lián)到關(guān)聯(lián)狀態(tài)下的基因,可認(rèn)為此類(lèi)基因?yàn)樘卣骰?。提取特征基因的關(guān)鍵在于找出合適的閾值Tc和Tn,使得特征基因數(shù)目不會(huì)過(guò)多,也不會(huì)太少。經(jīng)過(guò)計(jì)算從失聯(lián)到關(guān)聯(lián)狀態(tài)的特征基因的理想閾值為T(mén)c=0.66和Tn=0.62,從而得到實(shí)對(duì)稱(chēng)矩陣,對(duì)其按行求和并將和值降序排列,和值越大證明該基因在樣本中與越多的基因相關(guān)聯(lián),和值為0則代表該基因并不與其他基因有關(guān)聯(lián)[9]。根據(jù)上述步驟獲得從失聯(lián)到關(guān)聯(lián)狀態(tài)下的特征基因656條。
Connectivity map是一個(gè)基因表達(dá)譜數(shù)據(jù)庫(kù),它利用小分子藥物、基因表現(xiàn)與疾病相互關(guān)聯(lián)的生物應(yīng)用數(shù)據(jù)庫(kù)。以基因表達(dá)譜為所建立之基因、疾病與藥物的關(guān)聯(lián)性,可以快速利用基因表達(dá)譜的數(shù)據(jù)比對(duì)出與疾病高關(guān)聯(lián)性的藥物。近年來(lái)的研究趨勢(shì)也顯示出利用cmap基因表達(dá)譜數(shù)據(jù)庫(kù)應(yīng)用在疾病治療與藥物開(kāi)發(fā)的領(lǐng)域上,可提供越來(lái)越精確的方向。目前cmap第2版已經(jīng)發(fā)展成收錄了1 309種藥物表達(dá)譜的成熟體系,理論上講,與疾病和藥物相關(guān)的任何基因表達(dá)數(shù)據(jù)都可以在cmap數(shù)據(jù)庫(kù)中進(jìn)行高效率地查詢(xún)比對(duì),從數(shù)據(jù)庫(kù)揭示藥物、基因和疾病三者之間潛在的聯(lián)系[10]。
通過(guò)R軟件將篩選出的特征基因分為294個(gè)上調(diào)基因和362個(gè)下調(diào)基因。將上調(diào)基因和下調(diào)基因作為檢索標(biāo)簽,存為.grp文件,檢索cmap數(shù)據(jù)庫(kù)[11]。將前列腺癌基因表達(dá)標(biāo)簽與藥物處理基因標(biāo)簽進(jìn)行統(tǒng)計(jì)比較[12]。依據(jù)表達(dá)譜的相似性給每個(gè)前列腺癌-藥物配對(duì)計(jì)算一個(gè)分值,如果分值為負(fù)數(shù),則表明這種藥物與癌癥基因有相反的基因標(biāo)簽,即可能對(duì)前列腺癌具有較好的治療效果[13-14]。所以在檢索的過(guò)程中,刪除試驗(yàn)次數(shù)較少的藥物(n<4),關(guān)注藥物得分Mean分值為負(fù)值的藥物[15]。
表1 connectivity map數(shù)據(jù)庫(kù)篩選出的候選抗前列腺癌藥物
注: Mean表示藥物檢索得分值,n為藥物在cmap數(shù)據(jù)庫(kù)中重復(fù)試驗(yàn)的次數(shù),enrichment為前列腺癌癥基因標(biāo)簽與藥物基因標(biāo)簽相似的聚合度。
Cmap的分析結(jié)構(gòu)如表1,可以看出負(fù)相關(guān)分值最高的是Thioridazine(硫利達(dá)嗪),分值為-0.703,它是一種用于治療急性精神分裂癥、躁狂癥以及抑郁癥的藥物,表明對(duì)于前列腺癌可能具有較好的治療效果;從表中還可以看出排在后面的是atin A(一種抗腫瘤抑制劑)、LY-294002(第一個(gè)人工合成的蛋白激酶抑制劑)、Sirolimus(一種免疫抑制劑)、Tanespimycin(一種抗腫瘤藥物)、Monorden(一種抗生素)。而表中最后一個(gè)Estradiol(雌二醇)是經(jīng)皮膚吸收的雌激素治療劑,目前已經(jīng)被用來(lái)治療晚期前列腺癌。排在它上面的藥物最后的藥物檢索分值的負(fù)相關(guān)性均高于它,所以這幾種藥物很可能與治療前列腺癌有關(guān)。
本文通過(guò)互信息算法提取前列腺癌中的特征基因,利用cmap數(shù)據(jù)庫(kù)將基因與藥物進(jìn)行比對(duì)打分,最后得到與治療前列腺癌有關(guān)的藥物硫利達(dá)嗪、Tanespimycin等。數(shù)據(jù)分析結(jié)果還需要臨床試驗(yàn)的進(jìn)一步驗(yàn)證,希望有條件的實(shí)驗(yàn)室能完成這一工作?;诨バ畔⑺惴ㄌ崛√卣骰?yàn)樗幬镏囟ㄎ惶峁┝诵碌耐緩?推動(dòng)生物醫(yī)藥產(chǎn)業(yè)的發(fā)展。
沈陽(yáng)師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2019年1期