李 超,朱曉丹,張玲華,楊興坤
(佛山市婦幼保健院,廣東佛山 528000)
卵巢癌是婦產(chǎn)科惡性腫瘤死亡的主要原因之一,最新數(shù)據(jù)顯示2018年全球有295 414 例新發(fā)患者[1]。卵巢癌的總體五年生存率低于45%,主要是由于診斷較晚已發(fā)生遠(yuǎn)處轉(zhuǎn)移。目前臨床實(shí)驗(yàn)室采用的CA125 等標(biāo)志物缺乏特異性,超聲檢查尤其易漏診早期病例[2-4]。因此卵巢癌新型標(biāo)志物的再挖掘,疾病關(guān)鍵基因的再鑒定是其預(yù)防控制需要重點(diǎn)解決的難題。
近年來表達(dá)譜的廣泛應(yīng)用積累了海量的基因組學(xué)數(shù)據(jù),這有賴被深入挖掘和解讀。而生物信息學(xué)能夠從整體層面揭示復(fù)雜疾病的分子靶標(biāo),屬于腫瘤等研究領(lǐng)域較為革新的技術(shù)手段。檢索國(guó)內(nèi)外近三年的相關(guān)研究,已有表達(dá)譜芯片與生物信息學(xué)聯(lián)合挖掘卵巢癌關(guān)鍵基因的多篇文章發(fā)表[5-8]。然而絕大多數(shù)課題組選取的均為同一類型的芯片數(shù)據(jù)集,存在準(zhǔn)確度不高而產(chǎn)生假陽性的問題,故可能難以獲得可靠結(jié)果。miRNA 是一種非編碼RNA,主要通過堿基配對(duì)與mRNA 內(nèi)的互補(bǔ)序列結(jié)合,導(dǎo)致mRNA 沉默而負(fù)向調(diào)控下游基因的表達(dá),廣泛參與細(xì)胞發(fā)育、分化和細(xì)胞周期[9]。多項(xiàng)研究發(fā)現(xiàn)幾乎所有類型的腫瘤均可發(fā)生miRNA 失調(diào),從而影響靶標(biāo)基因的表達(dá)[10-11]。因此本研究采用卵巢癌miRNAmRNA 表達(dá)譜數(shù)據(jù)集進(jìn)行聯(lián)合分析,在國(guó)內(nèi)還尚屬首次研究,具有較好的科學(xué)性和創(chuàng)新性。本文通過整合生物信息學(xué)手段,構(gòu)建分子蛋白調(diào)控網(wǎng)絡(luò)并鑒定卵巢癌致病關(guān)鍵分子及其涉及的生物學(xué)功能,將為闡明卵巢癌的發(fā)生發(fā)展調(diào)控機(jī)制提供一些科學(xué)精準(zhǔn)的理論依據(jù)。
1.1 資料來源 GEO (https://www.ncbi.nlm.nih.gov/geo/) 是一個(gè)公共的功能基因組學(xué)數(shù)據(jù)庫,由美國(guó)國(guó)立生物技術(shù)信息中心維護(hù),收錄了全球大量的高通量基因表達(dá)數(shù)據(jù)。本研究從中檢索卵巢癌的表達(dá)譜芯片,限定實(shí)驗(yàn)類型為腫瘤組織對(duì)比正常組織。最終確定了GSE119055 和 GSE66957 兩個(gè)符合條件的數(shù)據(jù)集。前者為miRNA 表達(dá)譜,包含了3 個(gè)正常組織和6 個(gè)腫瘤組織。后者為mRNA 表達(dá)譜,包含了12 個(gè)正常組織和57 個(gè)腫瘤組織。本研究資料來源于公開數(shù)據(jù)庫,無需醫(yī)學(xué)倫理學(xué)再審查。
1.2 方法與統(tǒng)計(jì)學(xué)分析
1.2.1 差異基因 :針對(duì)入選的mRNA 數(shù)據(jù)集,根據(jù)其平臺(tái)注釋文件,將探針I(yè)D 轉(zhuǎn)換為對(duì)應(yīng)的基因名稱;采用R 語言的“l(fā)imma”包分析挑選差異基因[12],定義命令包中的參數(shù)adj.P.Val<0.05 且logFC 絕對(duì)值>1.5 的基因?yàn)榫哂薪y(tǒng)計(jì)學(xué)意義的差異表達(dá)基因。利用R 包“org.Hs.eg.db”轉(zhuǎn)換基因名稱為對(duì)應(yīng)的基因ID[13],以便后續(xù)進(jìn)行富集分析。miRNA 數(shù)據(jù)集采用同樣方法和參數(shù)標(biāo)準(zhǔn)進(jìn)行處理。
1.2.2 靶標(biāo)預(yù)測(cè):采用FunRich 軟件進(jìn)行篩選的差異miRNA 的下游靶標(biāo)預(yù)測(cè),將預(yù)測(cè)的基因列表結(jié)果與mRNA 數(shù)據(jù)集篩選到的差異基因取交集,得到共有差異基因用于后續(xù)的調(diào)控網(wǎng)絡(luò)、關(guān)鍵基因鑒定和功能富集等過程分析[14]。
1.2.3 調(diào)控網(wǎng)絡(luò):根據(jù)miRNA 負(fù)向調(diào)控靶基因的原理,納入調(diào)控網(wǎng)絡(luò)的miRNA 與靶基因表達(dá)變化要求負(fù)相關(guān),篩選出表達(dá)情況符合條件的miRNA-靶基因組合來構(gòu)建調(diào)控網(wǎng)絡(luò)。該構(gòu)建鑒定過程采用cytoscape3.7.1 軟件進(jìn)行可視化,直觀剖析該調(diào)控網(wǎng)絡(luò)。
1.2.4 關(guān)鍵基因:String (https://string-db.org/) 數(shù)據(jù)庫是用于研究基因編碼蛋白之間的相互作用網(wǎng)絡(luò),用于挖掘核心的調(diào)控關(guān)鍵基因。通過string 進(jìn)行共有差異基因的分子蛋白互作網(wǎng)絡(luò)分析。接著采用cytoscape3.7.1 版本中的“cytohubba”模塊進(jìn)行關(guān)鍵基因的識(shí)別[15],數(shù)據(jù)導(dǎo)入來源為string 數(shù)據(jù)庫獲得的網(wǎng)絡(luò)結(jié)果文件,選擇MCC 算法,得到排名前10的關(guān)鍵基因。
1.2.5 功能注釋:利用R 包“clusterProfiler”進(jìn)行共有差異基因的GO (Gene Ontology) 富集和KEGG(Kyoto Encyclopedia of Genes and Genomes,京都基因與基因組百科全書) 通路功能注釋[13]。GO 富集分為三大類,分別是:分子生物學(xué)功能(Molecular Function,MF)、 生物學(xué)過程(Biological Process,BP)和細(xì)胞學(xué)組分(Cellular Components,CC)。KEGG 是一個(gè)整合了基因組、化學(xué)和系統(tǒng)功能信息的綜合數(shù)據(jù)庫,被廣泛用于基因通路的富集注釋。設(shè)置命令包中的篩選參數(shù)pvalueCutoff =0.05 為具有生物統(tǒng)計(jì)學(xué)意義。
2.1 差異基因 GSE119055 數(shù)據(jù)集共鑒定出31 個(gè)差異表達(dá)的miRNA,其中28 個(gè)為下調(diào)的miRNA,3 個(gè)為上調(diào)的miRNA。GSE66957 數(shù)據(jù)集共鑒定出3 844個(gè)差異表達(dá)的基因,其中1 995 個(gè)為下調(diào)的基因,1 849 個(gè)為上調(diào)的基因。差異表達(dá)分子分布圖見圖1。
圖1 差異表達(dá)分子的火山圖分布情況
2.2 共有差異基因與調(diào)控網(wǎng)絡(luò) 根據(jù)篩選的差異miRNA 和mRNA 列表集,結(jié)合FunRich 軟件預(yù)測(cè)得到的差異miRNA 的靶基因,取重疊的交集基因得到共有差異基因文件。將結(jié)果文件導(dǎo)入cytoscape 軟件可視化分析,結(jié)果如圖2A 所示。其中miR-29c-3p,miR-1271-5p 和 miR-133b處于網(wǎng)絡(luò)調(diào)控的中樞地位,調(diào)控的靶基因數(shù)量最多。
圖2 關(guān)鍵網(wǎng)絡(luò)基因的篩選與鑒定圖
2.3 關(guān)鍵基因鑒定 通過string 數(shù)據(jù)庫和“cytohubba”模塊鑒定共有差異基因中的關(guān)鍵基因結(jié)果見表1,均為過表達(dá)差異基因。根據(jù)最新的MCC 算法篩選前10 位關(guān)鍵基因,分別為COL1A1,COL3A1,COL4A1,COL10A1,COL9A1,COL4A5,SST,ADRA2C,ADCY6 和TGFBI。值得注意的是,COL1A1,COL3A1 和COL4A1 得分最高,處于網(wǎng)絡(luò)的關(guān)鍵核心位置,見圖2B。
表1 處于分子蛋白互作網(wǎng)絡(luò)中樞的前10 位關(guān)鍵基因功能情況
2.4 功能富集注釋 采用“clusterProfiler”包的GO富集分析和KEGG 通路注釋結(jié)果見圖3。富集分析表明共有差異基因主要涉及細(xì)胞外組織、胚胎器官發(fā)育、突觸后特化、膠原三聚體和DNA 結(jié)合轉(zhuǎn)錄激活等過程。KEGG 通路分析表明這些差異基因主要參與蛋白質(zhì)的消化吸收和松弛素信號(hào)通路行為。
圖3 差異表達(dá)基因的功能富集分析圖
卵巢癌在我國(guó)的死亡率居女性惡性腫瘤之首,但相關(guān)致病分子機(jī)制尚未完全闡明。需要指出,乳腺癌易感基因(breast Cancer susceptibility gene,BRCA)是早已被明確鑒定的卵巢癌關(guān)鍵基因之一,但卵巢癌BRCA 變異頻率介于3%~27%,我國(guó)卵巢癌患者BRCA 變異率為28.45%。BRCA 基因檢測(cè)為卵巢癌預(yù)防、診斷和治療提供了精準(zhǔn)建議。但仍需要鑒定新型關(guān)鍵分子進(jìn)行聯(lián)合篩查剩余大部分病例以此提高診斷率,這正是本研究的出發(fā)點(diǎn)。
綜合目前的研究[11,16-17],除了致病基因外,miRNA 等非編碼RNA 表達(dá)失調(diào)也能夠廣泛介導(dǎo)各種類型的惡性腫瘤。本研究為了提高預(yù)測(cè)準(zhǔn)確度,整合了卵巢癌miRNA-mRNA 表達(dá)譜來鑒定共有差異表達(dá)基因。根據(jù)miRNA 與靶mRNA 互補(bǔ)結(jié)合,負(fù)向調(diào)控基因的原理,我們構(gòu)建了miRNA-基因調(diào)控網(wǎng)絡(luò)并鑒定出3 個(gè)具有中樞地位的抑癌關(guān)鍵miRNA:miR-29c-3p,miR-1271-5p 和miR-133b。同時(shí)通過cytoscape 可視化網(wǎng)絡(luò)中的共有差異基因,預(yù)測(cè)篩選出10 個(gè)關(guān)鍵基因,即COL1A1,COL3A1,COL4A1,COL10A1,COL9A1,COL4A5,SST,ADRA2C,ADCY6 和 TGFBI。查詢NCBI 數(shù)據(jù)庫發(fā)現(xiàn)這10 個(gè)基因絕大多數(shù)都參與了某些腫瘤發(fā)生。我們通過R 包注釋了共有差異基因涉及的生物過程,發(fā)現(xiàn)11.3%(18/160)的共有差異基因跟DNA 轉(zhuǎn)錄激活功能相關(guān)(見圖3A)。很明顯可以合理推論出這些差異miRNA 和差異基因的異常表達(dá)很可能介導(dǎo)了卵巢癌的發(fā)生和發(fā)展。針對(duì)挖掘到的充當(dāng)抑癌角色的三個(gè)關(guān)鍵miRNA:miR-29c-3p,miR-1271-5p 和miR-133b,乃是本文最重要的發(fā)現(xiàn)之一。檢索miRbase 和genecards 等權(quán)威數(shù)據(jù)庫發(fā)現(xiàn)miR-29c-3p 和miR-1271-5p 的分子功能均包括細(xì)胞群增殖負(fù)調(diào)控、細(xì)胞遷移負(fù)調(diào)控和基因表達(dá)負(fù)調(diào)控;而miR-133b 通過與mRNA 3’-UTR 結(jié)合,參與轉(zhuǎn)錄后基因沉默。這些專業(yè)數(shù)據(jù)庫得到的證據(jù)反映了本研究生物信息挖掘的科學(xué)性,也揭示了本文挖掘到的關(guān)鍵標(biāo)志物調(diào)控卵巢癌的致病分子機(jī)制。同時(shí)結(jié)合近年來發(fā)表的經(jīng)實(shí)驗(yàn)驗(yàn)證類的相關(guān)研究發(fā)現(xiàn),HU Zhenhua 等[18]人通過體外裸鼠移植模型證實(shí)過表達(dá)的miR-29c-3p 通過下調(diào)FOXP1/ATG14 通路抑制自噬,表明miR-29c-3p 是卵巢癌的新型靶標(biāo)。WANG Lin 等[19]人通過qRTPCR 驗(yàn)證證實(shí)miR-1271-5p 在卵巢癌組表達(dá)顯著降低;DU 等[20]人利用miR-1271-5p 模擬物和抑制劑進(jìn)行過表達(dá)和敲除實(shí)驗(yàn),并通過雙重?zé)晒馑孛富钚苑治鲎C明了miR-1271-5p 直接靶向SPIN1 抑制乳腺癌的增殖和發(fā)展。LIU Xiaoqin 等[21]人發(fā)現(xiàn)miR-133b 通過靶向表皮生長(zhǎng)因子受體介導(dǎo)Akt 和Erk1/2失活抑制卵巢癌細(xì)胞的增殖和侵襲。這些涉及到三個(gè)關(guān)鍵miRNA 分子的研究結(jié)論都與我們研究中揭示的關(guān)鍵miRNA 表達(dá)情況和靶標(biāo)預(yù)測(cè)結(jié)果相符。
綜上所述,結(jié)合已發(fā)表的研究,顯示出本研究通過整合miRNA-mRNA 數(shù)據(jù)集挖掘卵巢癌疾病關(guān)鍵分子的可靠性。當(dāng)然這些潛在關(guān)鍵分子需要更深入的體外實(shí)驗(yàn)鑒定其所涉及的相互作用靶標(biāo)和調(diào)控通路。雖然如此,表達(dá)譜的生物信息學(xué)預(yù)測(cè)還是提供了很好的方法,縮小了體外實(shí)驗(yàn)研究的范圍,節(jié)省了寶貴的資源。未來,我們相信研究人員利用計(jì)算生物學(xué)實(shí)施腫瘤大數(shù)據(jù)戰(zhàn)略,或許能夠一次性揭示眾多復(fù)雜多樣的腫瘤發(fā)生的關(guān)鍵分子。
現(xiàn)代檢驗(yàn)醫(yī)學(xué)雜志2021年5期