廖思帆,吳麗媛,梁碧怡,李煥丹,周漩
(廣東藥科大學(xué)藥學(xué)院,廣東 廣州 510006)
乳腺癌是女性常見的惡性腫瘤之一,發(fā)病率和死亡率居?jì)D女各類惡性腫瘤之首,嚴(yán)重威脅著女性的身體健康[1]。近年來乳腺癌的治療手段不斷發(fā)展,手術(shù)治療、化學(xué)治療、靶向治療等多種臨床治療手段已經(jīng)日趨成熟,但由于乳腺癌本身具有高度異質(zhì)性[2]及易轉(zhuǎn)移性等特點(diǎn),乳腺癌患者的死亡率仍然得不到有效的控制。因此,篩選更有效的乳腺癌治療藥物,延長病人的生存期和降低乳腺癌的死亡率,具有重要意義。
傳統(tǒng)的藥物研發(fā)是一個(gè)復(fù)雜而漫長的過程,需要耗費(fèi)大量的人力物力,才能找到較為行之有效的候選藥物。基因表達(dá)譜芯片可以同時(shí)觀察成千上萬個(gè)基因在不同個(gè)體、不同組織、不同發(fā)育階段的表達(dá)狀況[3],根據(jù)基因在不同條件下的表達(dá)差異性來進(jìn)行藥物篩選,可為藥物研發(fā)提供方向,加快藥物的發(fā)現(xiàn)。
因此,本文采用生物信息學(xué)方法對(duì)乳腺癌相關(guān)基因表達(dá)譜數(shù)據(jù)進(jìn)行挖掘分析,篩選乳腺癌候選治療藥物,并對(duì)篩選得到的候選藥物進(jìn)行生物學(xué)通路、作用靶點(diǎn)等分析,研究其分子機(jī)制,加快乳腺癌藥物研發(fā)的進(jìn)程,為乳腺癌臨床治療研究提供理論參考。
本文研究所用的乳腺癌基因表達(dá)譜數(shù)據(jù)來自于NCBI的GEO數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/ geo/)的GPL570平臺(tái),包括GSE29044、GSE42568、GSE9309和GSE50428。其中,GSE29044包括73個(gè)乳腺癌組織與36個(gè)正常乳腺組織,共109個(gè)樣本;GSE42568包括104個(gè)乳腺癌組織與17個(gè)正常乳腺組織,共121個(gè)樣本;GSE9309包括128個(gè)乳腺癌組織與9個(gè)正常乳腺組織,共137個(gè)樣本;GSE50428包括26個(gè)乳腺癌組織與5個(gè)正常乳腺組織,共31個(gè)樣本。
GEO2R[4]是一個(gè)在線的芯片分析工具,可用于比較兩組或多組樣品的差異表達(dá)基因。本文采用GEO2R對(duì)前述4個(gè)樣本集分別進(jìn)行基因差異表達(dá)分析,將樣本分為正常組與癌癥組,以P<0.01篩選得到差異基因,根據(jù)篩選所得差異基因?qū)?yīng)的LogFC值,>2的即為上調(diào)基因,<-2的即為下調(diào)基因。對(duì)4個(gè)樣本集的差異基因取交集,獲得共同差異表達(dá)基因138個(gè),其中上調(diào)表達(dá)基因12個(gè),下調(diào)表達(dá)基因126個(gè)(見表1)。
為了篩選有價(jià)值的乳腺癌候選治療藥物,采用Connectivity Map[5]對(duì)上述共同差異基因進(jìn)行分析,在基因水平上對(duì)藥物進(jìn)行篩選。CMAP是一個(gè)藥物作用基因表達(dá)數(shù)據(jù)庫,搜集了大量小分子藥物處理過的腫瘤細(xì)胞表達(dá)譜的變化模式。CMAP可通過比較正常樣本與腫瘤樣本的基因表達(dá)差異,基因富集分析算法得到相關(guān)藥物,當(dāng)富集分?jǐn)?shù)為負(fù)數(shù)時(shí),意味著此藥物能夠反向作用于差異表達(dá)模式,以此篩選與腫瘤相關(guān)的藥物。以乳腺癌差異表達(dá)基因?yàn)閝uery signature,與CMAP數(shù)據(jù)庫中的藥物基因表達(dá)譜數(shù)據(jù)進(jìn)行配對(duì),篩選得到的藥物相關(guān)實(shí)驗(yàn)次數(shù)越多,負(fù)性富集分?jǐn)?shù)越高,其與乳腺癌的相關(guān)性越強(qiáng)。按實(shí)驗(yàn)次數(shù)大于3,富集分?jǐn)?shù)小于-0.5進(jìn)行篩選,得到100多個(gè)相關(guān)藥物,這些藥物可較好地逆轉(zhuǎn)乳腺癌的基因表達(dá)譜。
表1 4個(gè)數(shù)據(jù)集的共同差異表達(dá)基因Table 1 Common differential expression genes in four datasets
篩選得到的候選治療藥物中,部分藥物為已知抗腫瘤藥物(見表2),其中甲氨蝶呤是已知明確的乳腺癌治療藥物,說明了篩選結(jié)果的可靠性。此外,篩選得到的藥物還包括有激素類藥物,如甲羥孕酮、左炔諾孕酮等;抗菌類藥物,如克霉唑、硫鏈絲菌肽等;抗病毒類藥物,如三氟尿苷、阿糖腺苷等;抗組胺類藥物,如地普托品等;心血管類藥物、抗抑郁類藥物等。
表2 篩選得到的候選治療藥物中已知抗腫瘤藥物Table 2 Known anti-tumor drugs of the screened candidate therapeutic drugs
篩選得到的候選治療藥物中,已知的具有抗腫瘤作用的藥物應(yīng)為后期研究的重點(diǎn)。本文從實(shí)驗(yàn)次數(shù)、富集分?jǐn)?shù)、已知抗腫瘤作用等多方進(jìn)行比較,首先選擇了白藜蘆醇、芹黃素、棉酚3個(gè)藥物進(jìn)行其抗乳腺癌分子機(jī)制的研究。其中,白藜蘆醇和芹黃素已有報(bào)道其干預(yù)乳腺癌細(xì)胞的實(shí)驗(yàn)研究,但并未成為正式的乳腺癌治療藥物;而棉酚則只報(bào)道了抗其他腫瘤的作用。本文采用生物信息學(xué)方法,分析這些藥物的靶蛋白及其與乳腺癌相關(guān)基因的相互關(guān)系,研究其治療乳腺癌的分子機(jī)制,為藥物治療乳腺癌提供理論依據(jù),也為其他藥物的進(jìn)一步分析和篩選提供思路。
除了表2中的已知抗腫瘤藥物,候選治療藥物中的其他類藥物也同樣具有可能的抗乳腺癌作用。部分糖皮質(zhì)激素和雌激素已被證明有抗腫瘤活性,其中甲羥孕酮是明確的乳腺癌治療藥物。抗菌類藥物可通過干擾和抑制細(xì)胞的生長繁殖過程而殺滅細(xì)菌和病原微生物,而近年來研究發(fā)現(xiàn),抗生素對(duì)于癌細(xì)胞也具有相同作用,對(duì)有癌變趨勢(shì)的細(xì)胞使用抗生素,可抑制癌細(xì)胞的生長與擴(kuò)散,表現(xiàn)出抗癌活性??共《舅幬锟捎糜谥委熁蜉o助治療惡性腫瘤,而抗組胺藥能夠干擾髓源性抑制細(xì)胞的功能,亦有可能成為候選抗癌藥。心血管類藥物目前沒有發(fā)現(xiàn)有直接的抗癌作用,可能是因?yàn)槟承┌┌Y治療藥物具有心血管毒性,引發(fā)心血管并發(fā)癥從而使癌癥病人的基因表達(dá)譜與心血管類藥物的治療譜類似;抗抑郁類藥物亦可同理解釋,這兩類藥物具有抗癌活性的可能性相對(duì)較小。
2.3.1 藥物靶蛋白 在NCBI的PubChem Compound[6]中,分別搜索白藜蘆醇、芹黃素、棉酚的靶蛋白,白藜蘆醇得到NQO2等95個(gè)靶蛋白,芹黃素得到ESR1等48個(gè)靶蛋白,棉酚得到THRB等50個(gè)靶蛋白。
在Genecard[7]數(shù)據(jù)庫中尋找已知與乳腺癌相關(guān)基因,得到了BRCA1等308個(gè)乳腺癌相關(guān)基因。
2.3.2 靶蛋白String分析 String[8]是1個(gè)由已知或預(yù)測(cè)的蛋白質(zhì)相互作用數(shù)據(jù)組成的數(shù)據(jù)庫(基因則被識(shí)別為相應(yīng)的編碼蛋白質(zhì)),它主要用于構(gòu)建蛋白質(zhì)相互作用網(wǎng)絡(luò),并通過聯(lián)合其他平臺(tái)進(jìn)行GO和KEGG富集等分析,有助于挖掘核心的調(diào)控基因。分別對(duì)各藥物的靶蛋白以及乳腺癌相關(guān)基因進(jìn)行String分析,尋找各藥物靶蛋白與乳腺癌相關(guān)基因之間的共同KEGG通路和位點(diǎn),結(jié)果見表3。共同通路可以反映藥物發(fā)生治療作用的生物通路,共同位點(diǎn)則應(yīng)為藥物可對(duì)乳腺癌發(fā)生作用的關(guān)鍵靶蛋白,如白藜蘆醇可能通過作用于AKT1、TP53、PTGS2等位點(diǎn)來發(fā)生抗乳腺癌作用。表3中共同位點(diǎn)包括有,BRCA1、ESR1等典型乳腺癌基因,說明了本文篩選候選治療藥物結(jié)果的合理性,其他位點(diǎn)則為乳腺癌靶向治療提供了新的參考方向。靶向治療特異性強(qiáng),效果顯著,針對(duì)乳腺癌發(fā)生、發(fā)展有關(guān)的信號(hào)通路進(jìn)行靶向藥物的開發(fā)與臨床應(yīng)用亦是乳腺癌治療研究的熱點(diǎn)[9]。
Cytoscape[10]是1個(gè)生物網(wǎng)絡(luò)的綜合分析和可視化工具,它的中心組織原則是1個(gè)網(wǎng)絡(luò)圖,其中生物實(shí)體(如基因、蛋白質(zhì)等)為節(jié)點(diǎn),生物相互作用表示為節(jié)點(diǎn)之間的邊。采用cystocape軟件對(duì)各藥物的靶蛋白相互作用網(wǎng)絡(luò)進(jìn)行可視化及拓?fù)浣Y(jié)構(gòu)分析,分析網(wǎng)絡(luò)中的中心節(jié)點(diǎn)(度數(shù)和介數(shù)高的基因),結(jié)果見圖1和表4。這些網(wǎng)絡(luò)中心節(jié)點(diǎn)在網(wǎng)絡(luò)中起到關(guān)鍵調(diào)控作用,部分與表3中的關(guān)鍵靶蛋白重合,進(jìn)一步說明了這些靶蛋白的重要性;而與關(guān)鍵靶蛋白未發(fā)生重合的網(wǎng)絡(luò)中心節(jié)點(diǎn),則應(yīng)是通過調(diào)控關(guān)鍵靶蛋白而間接實(shí)現(xiàn)藥物作用。
表3 各藥物靶蛋白String-KEGG通路富集分析結(jié)果Table 3 String-KEGG pathway enrichment analysis of target proteins of the screened drugs
A.白藜蘆醇; B.芹黃素; C.棉酚。
本文采用生物信息學(xué)方法,從GEO數(shù)據(jù)庫中收集與乳腺癌相關(guān)的基因表達(dá)譜數(shù)據(jù)并進(jìn)行分析,篩選乳腺癌候選治療藥物。篩選得到的藥物主要包括有以白藜蘆醇、芹黃素、棉酚為代表的抗腫瘤類藥物,還包括激素類、抗菌類等藥物,這些藥物可較好地逆轉(zhuǎn)乳腺癌的基因表達(dá)譜,有望成為乳腺癌的候選治療藥物或輔助治療藥物,對(duì)乳腺癌的治療研究具有重要意義。此外,本文還對(duì)白藜蘆醇、芹黃素和棉酚進(jìn)行了藥物抗乳腺癌機(jī)制的研究,分析藥物治療乳腺癌的作用靶點(diǎn),為乳腺癌靶向治療提供了新的參考方向。